表观遗传的改变一直都是癌症研究中不可或缺的一部分,今天小编要给大家介绍的这篇文章是今年7月份发表在Briefings in Bioinformatics(IF:11.622)杂志上关于结直肠癌DNA甲基化的研究,作者通过对WGBS和scBC-seq检测到的结直肠癌DNA甲基化谱分析,对结直肠癌中DNA甲基化的研究在细胞层面提供了新的见解。文章内容丰富,研究DNA甲基化的小伙伴不要错过啦!
Comprehensive analysis of partial methylation domains in colorectal cancer based on single-cell methylation profiles
基于单细胞甲基化谱的结直肠癌部分甲基化结构域综合分析
一、研究背景
DNA甲基化的改变是人类癌症中关键的表观遗传变化之一,结直肠癌中DNA甲基化模式的常见改变包括整体DNA低甲基化和区域特异性高甲基化。部分甲基化结构域 (PMD) 是大基因组块中甲基化减少的区域,PMDs已在多种组织和细胞系中得到描述。不止人类基因组,小鼠基因组中也发现了PMDs且覆盖了大部分基因组,大约50-75%。每种细胞类型都有一组独特的PMDs,可用作细胞类型鉴别。以前的研究主要集中在WGBS数据分析组织中PMDs的分布和特征,但是基于细胞群的高通量测序忽略了来自同一肿瘤的细胞之间的异质性。因此,作者利用scBC-seq数据结合WGBS数据,检测和分类结直肠癌细胞中的PMDs。通过比较同一肿瘤不同细胞和区域的DNA甲基化,对PMDs呈现的广泛的表观遗传异质性进行了研究。
二、数据及方法
1.结直肠癌数据:作者从GEO数据库中下载结直肠癌患者与之匹配的邻近正常单细胞BS-seq和RNA-seq数据集GSE97693;从TCGA中下载了WGBS和450K检测的结直肠癌甲基化数据和RNA-seq基因表达谱。该研究使用的是ucsc中提供的参考基因组版本19(hg19)的基因位置和CpG岛信息。
2.PMDs的检测:在检测PMDs之前,作者首先通过dbSNP数据库排除了与常见单核苷酸多态性重叠的CpG。接下来使用R包MethylSeekR来检测正常和癌症样本中的PMDs,参数num.cores = 2。由于具有高CpG密度的基因组区域倾向于产生不平衡的平均甲基化,作者在移除了所有与CpG岛(shores, shelves)和启动子重叠的CpG后使用PMDs内的平均DNA甲基化水平作为PMDs的甲基化水平。对于单个细胞中的PMD,作者根据已发表的文章中定义方法对单个细胞中的PMDs进行定义。
3.PMDs的子类: 通过比较正常和结直肠癌样本的PMD,作者将PMD分为三个亚类:Gain-PMDs, Loss-PMDs and Conserved-PMDs。Gain-PMDs是指在正常样本中不存在,但在结直肠癌样本中检测到的PMDs;Loss-PMDs是指在正常样本中被检测为部分甲基化结构域,但在结直肠癌样本中缺失的PMDs;Conserved-PMDs是在正常和结直肠癌样本中均被检测为PMDs的基因组区域。
4.对来自不同采样区域的细胞进行聚类:接下来作者基于Gain-PMDs内部的DNA甲基化程度计算样本间的欧式距离,通过R中的cmdscale函数进行MDS细胞聚类。Wilcoxon 符号秩检验用于比较来自不同采样区域的 Gain-PMD 内的 DNA 甲基化。
5.人类基因组区域注释:启动子被定义为转录起始位点上游0.5 kb和下游0.5 kb;CpG shore被定义为CpG岛上游2 kb和下游2 kb;CpG shelf定义为CpG shore上游2 kb和下游2 kb。作者根据已发表的启动子分类方法,利用CpG 密度将人类启动子分为三类:高密度CpG启动子、中密度 CpG 启动子和低密度 CpG 启动子。
三、主要结果
1. 单细胞中部分甲基化结构域的检测
在文章的第一部分,为了分析结直肠癌中的异常甲基化模式,作者使用了WGBS(n=1)和scBS-seq(n=4)检测到的5例患者的原发肿瘤和匹配的邻近正常组织的DNA甲基化谱,通过在100kb的连续片段中的平均甲基化来生成全基因组甲基化谱。如图1A所示,作者发现邻近的正常样本显示出高甲基化,而相同的基因组区域在匹配的肿瘤样本中显示出降低的平均DNA甲基化水平。此外,与WGBS检测到的原发性肿瘤的甲基化谱相比,单个癌细胞内的甲基化水平显示出更明显的缺失。并且还观察到甲基化缺失在不同的取样区域是不同的。由于全基因组范围的大规模低甲基化与部分甲基化结构域的概念相呼应。因此,为了研究低甲基化区域对结直肠癌的影响,下面的分析将集中在部分甲基化区域。
如图1B所示,由于单个细胞中检测到的DNA甲基化谱具有例如适度的CpG覆盖和固有的数据稀疏性等缺点,为了防止PMDs的检测收到测序数据的影响,作者建立了一套识别PMDs的程序。分析结果如图1C所示,PMD最多的患者为CRC13;PMD最少的患者为CRC01。如图1D,在CRC01、CRC10、CRC11和CRC13中,PMD覆盖基因组的百分比分别为54.10%、55.57%、55.01%和58.51%。平均而言,每个患者保留了9073.25个PMD,覆盖了55.8%的基因组。
2. PMDs的子类和特征
为了比较癌症和正常样本中PMDs的差异,作者将PMDs分成三个不同的亚类(图2A)。通过识别单个细胞的PMD数(图2B),作者发现CRC01、CRC10、CRC11和CRC13的Gain-PMD数分别为1597、2174、1860和3054;Conserved-PMD的数量分别为6125、7039、6738和7706,平均而言,每个患者识别了2171个Gain-PMD,6902个识别了Gain-PMD。作者进一步观察了四名患者共享的Gain-PMDs和Conserved-PMDs,如图2C,发现4名患者中分别共有1079个Gain-PMDs和5283个Conserved-PMDs,这表明结直肠癌的PMDs在患者中广泛存在。
先前有研究表明,PMDs的特性和功能可能受到长度的影响。例如,与长PMD相比,短PMD含有更多的蛋白质编码基因、长非编码RNA (lincRNA)和假基因,短PMD保留了更多的表观遗传可塑性,具有更多的细胞类型特异性特征。因此,作者重点关注了Gain-PMDs和Conserved-PMDs的长度。如图2D所示,Gain-PMDs 通常是短 PMDs,而大多数 Conserved-PMDs 是长 PMDs,作者推测本研究中检测到的Gain-PMD 可能会影响细胞功能。
接下来作者分析了基因在两个不同亚类中的覆盖情况,如图2E所示,患者CRC01、CRC10、CRC11和CRC13中的Gain-PMDs分别覆盖了1.72、2.09、1.91和2.90%的基因组区域;Conserved-PMDs分别覆盖了52.38、52.92、53.66和55.61%的基因组区域。与Conserved-PMDs相比,虽然Gain-PMDs只覆盖了较小的基因组区域,但它们包含的基因比例更高。
作者接下来对Gain-PMDs中的基因是否对结肠癌的形成有推动作用进行了讨论。通过Metascape在线工具进行了GO富集分析,结果显示这些基因在调节有丝分裂细胞周期的G1/硫转换、对前列腺素E的反应、T细胞共刺激、淋巴细胞共刺激、对脂肪酸的反应、白细胞迁移的积极调节、肿瘤坏死因子产生的积极调节和骨形态发生蛋白信号通路的调节等与结直肠癌的形成和发展密切相关的生物学过程中高度富集,且Gain-PMDs内部的基因广泛参与癌症的免疫反应。
3. 同一肿瘤不同细胞和区域之间广泛的表观遗传异质性
在这一部分,作者分析了不同细胞间Gain-PMDs是否存在表观遗传异质性。首先,作者对结直肠癌患者的单细胞PMDs进行了过滤,保留了70%细胞中检测到CpGs的Gain-PMDs区域且对于每个细胞保留CpG位点的平均甲基化在0.2-0.7的Gain-PMDs,如图3A所示。接下来作者计算了具有Gain-PMDs的细胞数量的频率分布,如图3B,作者发现四名患者的细胞数量的频率分布直方图呈正态分布。作者在此得出结论:通过单细胞数据,WGBS检测到的大多数 Gain-PMD 可以在一半以上的细胞中再次被识别。
然而,该基因组区域中另一部分细胞的平均甲基化水平与部分甲基化结构域不匹配,这表明Gain-PMDs在细胞之间存在广泛的异质性。如图3C,作者根据Gain-PMDs的甲基化水平对不同采样区域的细胞进行聚类,发现Gain-PMDs的甲基化水平可能受到肿瘤微环境的影响,来自同一区域的细胞会聚集在一起。此外,作者还进行了Wilcoxon符号秩检验,以探讨不同采样区域之间Gain-PMDs甲基化水平的差异,图3D的结果表明对于检测多个采样区域的重要性,有助于发现肿瘤内异质性。
4. Gain-PMDs 中发生异常甲基化变化
在这一部分,作者为了确定结直肠癌细胞中 Gain-PMD 中是否存在异常甲基化变化,比较了正常和原发肿瘤细胞之间 Gain-PMD 内的甲基化水平。如图4A,结果表明与邻近的正常细胞相比,结直肠癌细胞中Gain-PMDs的甲基化水平显著降低,不同采样区域细胞中甲基化的降低程度也不相同。
多项研究证实,基因组功能元件如启动子和CpG岛的异常甲基化在癌症的发展中起着重要作用,因此作者比较了正常和结直肠癌细胞内Gain-PMDs基因组元件的DNA甲基化水平,将CpG根据甲基化水平分为三组:甲基化水平高于0且低于0.2的低甲基化组;甲基化水平高于0.2且低于0.8的中间甲基化组;和甲基化水平高于0.8且低于1的高甲基化组。如图4B所示,作者发现与正常细胞相比,在结直肠癌细胞中,Gain-PMDs内部CpG岛的高甲基化组和中间甲基化组的CpG比例增加,低甲基化组的CpG比例降低;对于启动子,在4名患者中发现,与正常细胞中Gain-PMDs内的启动子相比,大肠癌细胞中高甲基化组和低甲基化组的CpG比例降低,但中间甲基化组的CpG比例升高。总结一下就是作者发现Gain-PMDs内CpG岛启动子甲基化异常增加。
5.Gain-PMDs中异常的DNA甲基化对基因表达的影响
由于启动子中的异常高甲基化可能抑制基因表达。因此,作者在这一部分主要关注CpG岛启动子的甲基化与基因表达的关系。通过之前的分析,在TCGA数据集中选择了290个具有甲基化和表达数据的基因进行后续分析,结果如图5A,肿瘤标本的DNA甲基化水平明显高于正常标本(P< 0.01),这表明肿瘤中Gain-PMDs内部CGI启动子的甲基化程度较高。同时,比较290个基因在正常和结直肠癌样本中的表达值,发现两组之间存在显著差异(wilcox.test,P= 0.002),结直肠癌样本中的基因表达降低。
接下来,作者计算了Gain-PMDs内部CGI启动子的DNA甲基化与结直肠癌样本中基因表达之间的Pearson相关系数,发现77.59%的基因表达与DNA甲基化显著负相关(Cor <0,P< 0.05);11.38% 的基因呈强负相关(Cor <-0.6,P< 0.05)。作者进一步讨论了启动子甲基化和表达负相关的基因功能,以及他们是否参与促进结直肠癌的发病和进展。如图5B,这225个基因与多种癌症相关的生物学过程和通路显著相关,它们有可能成为结直肠癌治疗的靶点。ID4已有研究证实其在结直肠癌细胞中的低表达促进了细胞增殖和克隆的形成,图5C显示了ID4基因启动子中的DNA甲基化和表达之间的Pearson相关性,Pearson相关系数为-0.37,这再次证明高甲基化抑制了ID4的表达。在此,作者得出结论:在从正常细胞向肿瘤细胞发展的过程中,对于Gain-PMDs内部的大多数基因,当CpG岛启动子DNA发生异常甲基化时,可以在一定程度上抑制基因表达,从而促进结直肠癌的形成、增殖和转移。
以上这篇文章的全部内容就介绍完啦,总的来说,作者利用通过单细胞甲基化数据对部分甲基化结构域进行筛选,进而在WGBS和基因表达数据中确定其与基因表达的关系,在细胞和组织层面对PMDs与结直肠癌的关系都进行了阐述,相信随着单细胞甲基化数据的增多,今后对于DNA甲基化的研究可能更多的会聚焦于单细胞层面,感兴趣的小伙伴可以多多关注哟。