今天给大家分享一篇发表在Nature Communications(IF: 17.694)上的文章:
DNA methylation-based epigenetic signatures predict somatic genomic alterations in gliomas
基于 DNA 甲基化的表观遗传特征预测神经胶质瘤的体细胞基因组改变
一.研究背景
表观遗传学在癌症中起着至关重要的作用,并通过DNA甲基化、组蛋白变异和非编码RNA表现出广泛的重编程。DNA甲基化是一种稳定的特征,反映了肿瘤间和肿瘤内的异质性,并且已用于分类不同类型的肿瘤。例如,最近发表的基于DNA甲基化的中枢神经系统(CNS)肿瘤组织病理学分类(无监督CNS分类)挑战了传统的组织学分类和肿瘤分级。这种无监督的CNS分类使用无监督学习方法来识别具有不同DNA甲基化谱的CNS肿瘤类别。浸润性胶质瘤,包括世界卫生组织II-IV级胶质瘤,是最常见和致命的原发性脑肿瘤。先前的研究已经确定了胶质瘤的一些关键分子特征,这些特征在胶质瘤的发生、发展、诊断和治疗中起着关键作用。例如,异柠檬酸脱氢酶(IDH)突变与年轻和更长的生存时间正相关。染色体1p/19q联合缺失对提高生存率和预测化疗反应有预测作用。IDH突变和染色体1p/19q联合缺失是世界卫生组织当前胶质瘤诊断标准的一部分。TERTp突变和ATRX突变是胶质瘤中相互排斥的改变,两者在功能上与端粒长度维持相关。端粒酶抑制疗法、异染色质沉默机制靶向疗法和G4失稳疗法是具有ATRX或TERTp突变的胶质瘤的有希望的治疗靶点。O6-甲基鸟嘌呤DNA甲基转移酶(MGMT)启动子甲基化状态是预后和烷基化化疗预测生物标志物。可以使用已建立的基于甲基化阵列的算法MGMT-STP2713进行预测。在转录水平上,胶质母细胞瘤(GBM)已根据分为CL、PN和MES的特征基因表达特征分为三个亚型。CL-GBMs以表皮生长因子受体(EGFR)扩增为特征,而MES-GBMs富集神经纤维蛋白1(NF1)缺失和突变。
上述所有体细胞突变对诊断、治疗决策和患者预后至关重要。然而,通常需要单独的测序分析来获得这些体细胞改变。体细胞突变的检测,如IDH、ATRX和TERTp状态,通常依赖于NGS。荧光原位杂交(FISH)或杂合性缺失(LOH)分析通常用于获得染色体1p/19q状态。甲基化特异性PCR(MS-PCR)或焦磷酸测序分析通常用于获得MGMT启动子状态。目前还没有临床试验根据基因表达对肿瘤进行分类。这是因为胶质瘤切除术后最常用的分析物是FFPE组织。FFPE组织中的RNA经过高度降解和化学修饰,因此,其转录测序质量较低,可能会受到人为因素和技术差异的影响。总之,这些单独检测的成本、时间和组织要求经常导致延迟或不完整的分子诊断,导致治疗不理想和不合格的临床试验。事实上,迫切需要开发一种快速、经济有效的检测方法,为浸润性胶质瘤患者提供最少量的FFPE组织。
二.研究方法
研究者旨在开发一种基于DNA甲基化的分类器,准确确定浸润性胶质瘤的IDH、TERTp和ATRX突变状态、染色体1p/19q编码状态和基因表达亚型。根据其状态,上述分子特征可分为两类:二元类,包括IDH、TERTp和ATRX突变或野生型、染色体1p19q缺失编码或完整以及基因表达亚型,包括CL、PN或MES。使用严格的机器学习方法,开发了用于预测每个二元类(IDH、TERTp等)和预测基因表达亚型的单独分类器。二元基因组改变分类器在TCGA的低级别和高级别胶质瘤样本中进行了训练和验证,而基因表达亚型分类器仅在TCGA胶质母细胞瘤样本中训练,因为这些亚型最初是使用高级胶质瘤数据集描述的。所有分类器的性能均通过多中心III期随机试验的独立队列(NOA-04)进行验证,该试验包括低级别和高级别胶质瘤。
三.研究结果
1、预测模型
对于二元遗传变异,所有预测模型都达到了较高的预测精度,如图1A所示。在测试集中,模型对IDH、TERTp和ATRX突变以及染色体1p/19q编码状态的预测准确率分别为100%、98.31%、90.48%和99.21%,AUC分别为1.0、1.0、0.9952和0.9974。对于基因表达亚型预测,按照方法中所述处理具有HM450K和HM27K数据的GBM样本。最终的随机森林模型用训练集(n=212)和验证集(n=72)重新调整,在测试集中达到72.2%(52/72)的预测精度。
2. 预测特征分析
对于二元遗传变异,研究者对所有可用样本进行聚类分析(图1B)。样本被分为两个亚组,与已知的基因组改变高度一致。通过比较IDH、TERTp、ATRX和染色体1p/19q 联合缺失的特征探针与胶质母细胞瘤CpG岛甲基化表型(G-CIMP)特征,研究者发现这五种探针特征之间没有明显重叠(图1C)。ATRX和TERTp突变特征之间缺乏重叠,这与端粒维持中ATRX与TERTp的互斥性质一致。
3. 预测结果与分析
根据DNA-seq based的ATRX状态、methyl-based的ATRX状态和单核苷酸变异(SNV)信息形成了五个样本子集(集合1-5)(图2A)。25个样本根据DNA-seq分类为野生型,但根据methyl-based的模型分类为突变型。在这25个样本中,17个样本(集合2)显示了至少一个突变,8个样本(集合3)根据SNV没有突变(图2B)。对于集合4, 具有TERTp突变状态,3/8样本为TERTp 突变和ATRX野生型。所有被methyl-based的模型误分类为ATRX突变体的样品都含有IDH突变,而所有被methyl-based的模型误分类为野生型的样品都是IDH野生型(图2B)。有趣的是,当甲基化结果不一致时,即使测序结果一致,也观察到表达存在显著差异(图2C-D)。位于ATRX上的探针的DNA甲基化水平在三个亚组(set2、set3和set4)之间没有显示出显著差异,只有一个探针除外。对于染色体1p/19q编码状态预测,当比较methyl-based的状态和SNP6-based的状态时,五个样本被错误分类(图2E)。使用HM450K甲基化数据计算的chr1和chr19的CNV谱(图2F)。通过甲基化模型,五分之四的样本被误分类为联合缺失,一个样本被误归类为非联合缺失。可以清楚地观察到TCGA-CS-5394和TCGA-FG-7637中的缺失,这与methyl-based的模型预测相匹配。对于基因表达亚型预测,测试集中的样本(n=72)按methyl-based和transc-based的基因表达亚类型进行分类(图3A)。与具有一致亚型的样本相比,两种方法之间的不一致样本在拷贝数变异和基因表达水平上显示出显著差异。研究者检查了不一致样本中特定亚型的变化,以确定哪种分类方法与这些特征变化的相关性最高(图3B-C)。
4. 模型验证
NOA-04队列中每个二元基因组改变的预测准确率为:对于IDH突变,通过PCR-seq的89.9%(98/109)和通过HM450k DNA甲基化谱的无监督聚类分析的99.10%(114/115);对于TERTp突变,通过PCR-seq分析,82.8%(82/99)免疫组织化学(IHC)检测ATRX突变率为92.7%(89/96);而对于染色体1p/19q状态,MLPA为88.89%(88/99),基于HM450K产生CNV分布为95.65%(110/115)(图3D)。根据IDH突变状态,11个样本通过methyl-based的预测被错误分类:9/11通过PCR-seq预测为野生型,但通过methyl-based模型预测为突变型。在TCGA-LGG样品中,通过methyl-based和transc-based的算法预测的基因表达亚型在PN亚型的分类结果中显示出很大差异(图3E):422/486(86.8%)个样本通过基于甲基的亚型被分类为PN,而只有228/48(46.9%)通过transc-based亚型被归类为PN。图3F中的热图将methyl-based的亚型和transc-based的亚型与胶质瘤的其他关键特征对齐,包括组织学、染色体1p/19q编码状态、MGMT启动子甲基化状态以及关键基因的突变和CNV状态。很明显,几乎所有的IDH1/IDH2突变和大多数TP53和ATRX突变与methyl-based的PN亚型匹配。在PN亚型中几乎没有观察到EGFR扩增。这些观察结果遵循PN亚型的已知特征,并支持methyl-based的分类。
5. UniD与无监督CNS分类比较
根据UniD预测的分子特征状态,将胶质瘤(n=644)分为九组。总结了这些组及其基于无监督CNS分类的分类。在图4A中。大多数胶质瘤分为五组(Grp1、2、3、7和8)。Grp8中的胶质瘤在ATRX和TERTp中均显示野生型状态,这表明可能存在替代机制来维持其端粒长度。图4B中描述了两个分类系统之间的不一致样本。第一行:40/644例胶质瘤被分类为对照类(正常样本),根据无监督CNS分类为正常脑组织,其余病例被分类为“肿瘤”类(肿瘤样本)。通过比较分类的正常和分类的肿瘤样品之间的绝对肿瘤纯度(图4C),许多分类的正常样本显示出高肿瘤纯度,48个分类的正常样本显示出高的肿瘤纯度和分类的正常标本的中位肿瘤纯度。第二行:第1至4亚组中的所有CONNTR和HEMI均被预计为IDH野生型,而通过DNA测序检测到了所有的IDH突变。第三行:Grp2中的12个样本被分类为正常脑正常组织或IDH野生型胶质瘤,无染色体1p/19q联合缺失,而SNP6的CNV图谱显示清晰的染色体1p/19q联合缺失(图4D)。第四行:SFT、HMPC样本预计具有整倍体基因组,而Grp7中的TCGA-19-5951显示出显著的chr10缺失以及chr19p和chr20扩增(图4E)。第五行,根据无监督的CNS分类,Grp8被预测为IDH突变体,但实际上通过测序为野生型。第六行:来自成年患者的两个样本(TCGA-06-5858和TCGA-2006-6698)被无监督CNS分类为IHG。在主要的五组(Grp 1、2、3、7、8)中,任何两组之间的Kaplan-Meier分析如图4F、G所示。Grp1、Grp2和Grp3之间未观察到显著差异。这表明所有IDH突变肿瘤患者无论其肿瘤的ATRX、TERTp、ATRX或ATRX水平如何,与IDH突变型胶质瘤相比,染色体1p/19q状态和IDH野生型胶质瘤(Grp7和Grp8)的生存率显著降低。此外,与Grp8相比,Grp7表现出较差的存活率,Grp8的样本含有TERTp突变,这表明在缺乏IDH或者ATRX突变时,TERTp突变具有负面的预后意义。
四、总结
分子分类改善了恶性胶质瘤患者的诊断和治疗。然而,分类依赖于成本高且速度慢的单独检测,导致治疗经常延迟。在这里,研究者建议使用DNA甲基化作为一个新兴的临床诊断平台,根据主要基因组改变对胶质瘤进行分类,并提供对亚型特征的洞察。研究表明,使用机器学习模型,DNA甲基化特征可以准确预测体细胞的改变,并比现有分类器有改进。研究者开发的UniD对于早期临床阶段的基因组改变和基因表达亚型诊断来说是快速且经济的,并且比目前临床使用的单个检测方法有所改进。遗传改变和表观遗传特征之间的显著关系表明该方法广泛适用于其他恶性肿瘤。