今天给大家分享的是2022年2月份发表在Briefings in Bioinformatics(IF=13.994)一篇文章,文章主要讲解了一种能够精准识别特异性亚细胞群的计算方法。
LRcell: detecting the source of differential expression at the sub-cell-type level from bulk RNA-seq data
LRcell:从RNA-seq数据中在亚细胞水平上检测差异表达来源
1.摘要:
鉴于大多数组织由丰富多样的(亚)细胞类型组成,RNA-seq分析中一个重要但尚未解决的问题是确定差异表达发生在哪些(亚)细胞类型上。单细胞RNA测序(scRNA-seq)技术可以回答这个问题,但它们通常是费力费钱。在这里,作者介绍了LRcell,这是一种旨在识别在RNA-seq实验中观察到变化的特定(亚)细胞类型的计算方法。此外,LRcell提供了从scRNA-seq实验计算的预嵌入标记基因作为执行分析的选项。作者进行了一项模拟研究,以证明LRcell的有效性和可靠性。使用三个不同的真实数据集,作者表明LRcell成功识别出与精神疾病有关的已知细胞类型。将LRcell应用于RNA-seq结果可以产生一种关于哪些(亚)细胞类型有助于差异表达的假设。LRcell是对细胞类型反卷积方法的补充。
2.研究背景
在实验条件之间寻找差异表达基因(differentially expressed genes,DEG)是了解表型变异分子基础的有力方法。然而,大多数组织由数十甚至数百种不同的(亚)细胞类型组成,而DEG可能只出现在这些(亚)细胞类型的一小部分中,这与实验条件有关。RNA-seq数据无法揭示驱动DEG的(亚)细胞类型。单细胞技术的快速发展和普及导致来自不同组织类型的单细胞转录组学数据(scRNA-seq)的大量积累。这些数据揭示了不同细胞类型之间转录调控的巨大差异,并为重要生物过程的修饰提供了前所未有的近距离视角,特别是对于疾病病理学,包括哪些细胞类型驱动DEG。例如,在最近对阿尔茨海默病(Alzheimer’s disease,AD)的单细胞分析中,Mathys等人确定了响应AD病理学的神经胶质-神经元相互作用。在另一项单细胞研究中,Ruzicka等人发现神经元是精神分裂症受影响最大的细胞类型。
在过去的10年中,许多计算细胞类型去卷积方法已经被开发出来,它们能从转录组数据中推断不同(亚)细胞类型的比例,还进行了基准研究以比较它们的性能。在这项研究中,作者提出了一种名为LRcell的新型计算工具。鉴于RNA-seq差异表达(differential expression,DE)的研究结果,LRcell的目标是描绘组织的哪些(亚)细胞类型在两种实验条件之间发生了重大变化。LRcell是在假设两种实验条件之间的一种或几种亚细胞类型发生的表达变化是在大块组织水平观察到的DEG主要贡献者假设下开发的。细胞类型反卷积方法并非旨在推断此类变化。利用从公开数据中获得的scRNA-seq中鉴定的细胞类型特异性标记基因,LRcell通过查找组织中所有(亚)细胞类型的标记基因富集程度来实现目标(图1)。因此,scRNA-seq实验不需要匹配RNA-seq实验条件。当将LRcell应用于各种RNA-seq差异表达时,作者成功地识别出与精神疾病发病机制有关的已知(亚)细胞类型,并产生可测试的新假设,这些假设有可能产生新的生物学见解。
图1 LRcell工作流程。LRcell从对照病例的特定组织RNA-seq实验中提取结果作为输入。为了便于说明,假设组织中有三种(亚)细胞类型,LRcell可以考虑从这三种(亚)细胞类型的scRNA-seq实验中获得标记基因。将标记基因映射到整个基因列表中,按照DE p值排序。接下来,对于每种组织类型,应用回归分析。当以标记基因的二元指标作为响应变量时,作者进行logistic回归(LR);当使用Marques等人的方法产生的标记基因富集分数作为响应变量时,作者进行线性回归(LiR)。在这两种情况下,解释变量是-log转化后的DE p值。接下来,计算回归分析的显著性,并将其转换为-log变换FDR并绘制曲线。在本例中,LRcell结果显示A型细胞最显著,说明A型细胞在对照病例实验中发挥重要作用。
3.结果和讨论
在这项工作中,作者从多个已发布的scRNA-seq数据集中收集并整理了一系列标记基因。然后,对多个RNA-seq DE实验进行LRcell分析,以证明其实用性。
3.1标记基因收集和来源
在一种(亚)细胞类型与其天然状态下的其他细胞类型之间表现出显著差异的基因被视为标记基因。与基因集富集分析(Gene Set Enrichment Analysis,GSEA)的基因集类似,LRcell需要一份高质量细胞类型标记基因的纲要。目前,LRcell软件包为用户提供了来自人类血液、人类大脑和小鼠大脑的多个标记基因集(图2A),这些标记基因集是使用Marques等人研究中介绍的方法从scRNA-seq数据集计算而来的。此外,LRcell软件包提供由分子特征数据库(Molecular Signatures Database,MSigDB)收集的具有特定标准的外部细胞标记。外部标记均来自人类物种,包括中脑、脐带血、卵巢和骨骼肌。作者将所有细胞类型特异性标记基因集存储到另一个名为LRcell Type Markers的R Bioconductor Experiment Hub包中。
图2 LRcell数据集和标记基因在大脑不同区域重叠。(A)标记基因已预先嵌入LRcell的所有组织类型的总结。(B)来自小鼠全脑scRNA-seq数据集的热图说明了FC区域内细胞类型之间标记基因的重叠。以小胶质细胞为例说明这三种(亚)细胞类型之间的相似性。(C)显示FC细胞类型和小脑CB细胞类型之间标记基因重叠的热图。(D)显示FC细胞类型和海马细胞类型之间标记基因重叠的热图。
3.2选定标记基因的特性
由于Marques等人提出的方法不考虑DEG倍数变化,因此探索所选标记基因所表现出的倍数变化是有意义的。计算了它们所代表的(亚)细胞类型中每个标记基因相对于其他细胞类型的倍数变化,并绘制了每种(亚)细胞类型的log10转换倍数变化。作者观察到绝大多数这些标记基因显示出对某些神经元(亚)细胞类型的预期显著变化。
3.3模拟设置
由于DEG和细胞类型比例变化的基本事实难以监测和跟踪,作者进行了模拟研究以证明LRcell的有效性。在这项模拟研究中,作者考虑了患者和对照之间的实验,涉及DEG和比例变化。作者模拟单细胞和大量RNA-seq数据。这两种类型的数据都是由scDesign2使用成年小鼠额叶皮层(frontal cortex,FC)scRNA-seq数据集作为参考生成的,作者使用之前从数据集中获得的标记基因来进行LRcell分析。为简单起见,作者在模拟研究中考虑了两种情况:(1)在条件变化期间所有(亚)细胞类型的比例保持不变,并且在一种特定的细胞类型中发现了DEG;(2)病例和对照的(亚)细胞类型比例不同,在任何(亚)细胞类型中均未发现DEG。在每种情况下,作者都尝试模拟不同的组合。在第一种情况下,作者考虑以下设置:(a)细胞类型比例分布;(b)细胞总数;(c)在该特定(亚)细胞类型中出现的DEG数量;(d)DEGs的倍数变化方向。在第二种情况下,作者考虑以下组合:(a)细胞类型比例分布;(b)细胞总数;(c)特定(亚)细胞类型的比例变化。此外,当有更多(亚)细胞类型时,为了推动LRcell性能范围,作者模拟了有5、10和15个(亚)细胞类型的情况,并改变了以各种方式均匀分布的基线比例。
3.4模拟结果
对于模拟研究,作者轮流改变每个单独的(亚)细胞类型,然后运行LRcell或MuSiC并跟踪改变的(亚)细胞类型的等级作为性能指标。因为在第一种情况下,没有比例变化,所以作者不测试MuSiC的性能。LRcell能够正确识别大多数(亚)细胞类型的变化。出现错误识别的情况是DEG数最少的情况(换句话说,模拟1000个DEG时)。对于第二种情况,作者比较了LRcell、MuSiC和GSEA(使用标记基因作为基因集)。作者观察到MuSiC在所有设置下都表现稳定,而LRcell会产生一些错误。这是完全可以预料的,因为该场景符合MuSiC的假设,但不符合LRcell的假设,因为它不是细胞类型比例反卷积方法。作者还在有更多(亚)细胞类型的情况下比较了LRcell、MuSiC和GSEA。作者注意到,当有10种(亚)单元类型时,LRcell和MuSiC工作得同样好,而当有15种(亚)单元类型时,LRcell的表现略好于MuSiC。特别是,对于比例增加20%的1000个细胞的设置,LRcell和MuSiC都检测到不正确但相似的(亚)细胞类型。在所有设置下,LRcell和MuSiC的表现都优于GSEA。
3.5小胶质细胞在神经退行性痴呆中高度富集
在模拟研究之后,作者在真实数据分析中进行了LRcell。在最近的一项神经退行性痴呆研究中,Swarup及其同事使用RNA-seq将表达tau突变体的TPR50小鼠与野生型小鼠进行了对比,以识别介导痴呆的基因网络(随后的小鼠AD研究)。为了识别与该病症最相关的细胞类型,作者使用来自成年小鼠FC区域的预嵌入标记基因将LRcell应用于DEG列表。从LRcell结果,作者观察到小胶质细胞表现出高度显著性(图3A),这与之前的研究一致。此外,FC_11-3未知和FC_11–4未知(亚)细胞类型也显示出高水平的显著性。然而,所有细胞簇中标记基因的成对比较表明,这两个未知细胞簇与FC_11-1有相当大的重叠,FC_11-1也是一种小胶质细胞类型(图2B),这解释了作者观察到的模式。
图3 将LRcell应用于实际案例。(A)LRcell将大量神经退行性痴呆DEGs映射到小鼠大脑FC区域的结果。(B)使用LRcell(小鼠大脑FC)中的相同标记基因作为输入,绘制大面积神经退行性痴呆DEGs的GSEA结果。(C)用MuSiC计算对照和疾病样本的细胞类型比例。(D)LRcell将大量PTSD DEGs映射到人类PBMC的结果。(E)使用LRcell(人类PBMC)中的相同标记基因作为输入,GSEA结果将大量PTSD DEGs映射到人类PBMC。(F)用MuSiC计算对照和病例样本的细胞类型比例。
3.6 CD16+单核细胞在创伤后应激障碍中高度富集
在最近的一项研究中,Breen及其同事使用从美国海军陆战队收集的外周血白细胞进行了一项大规模的全转录组研究,其中一些在部署后出现了创伤后应激障碍(posttraumatic stress disorder,PTSD)(之后的人类PTSD研究)。使用这个数据集,作者生成了一个DEG列表,这些DEG显示了PTSD组和对照组在部署前时间点之间的显著差异。使用来自外周血单核细胞(PBMC)的单细胞转录组学研究的人类标记基因,LRcell分析发现注释为CD16+非经典单核细胞的细胞在PBMC的所有细胞类型中显示为最重要的(图3D)。作者的发现具有生物学意义,因为如先前的研究所述,异质性存在于由CD16表面蛋白区分的单核细胞中,非经典单核细胞已被证实可调节创伤中的免疫反应。
3.7来自不同地区或时间点的标记基因
要应用LRcell,一个重要的问题是使用哪个标记基因组,即如何选择组织来源与转录组研究中描述的组织类型相匹配的单细胞RNA-seq数据。这对于大脑等复杂组织尤为重要。为了解决这个问题,作者以小鼠AD研究为例,其中包含来自四个大脑区域的信息:皮质、海马(hippocampus,HC)、小脑(cerebellum,CB)和脑干。为了了解标记基因如何在大脑区域之间变化,作者首先定义大脑所有区域的标记基因以探索它们的空间模式(图2C和D)。作者观察到来自不同区域的神经胶质细胞,例如星形胶质细胞,具有更多的重叠标记基因,这表明整个大脑的神经胶质细胞的同质性。相比之下,神经元和中间神经元在不同的大脑区域共享很少的标记基因。然后,作者将来自FC、HC和CB的预嵌入成年小鼠脑标记基因分别应用于从皮层、HC和CB获得的大量DEG。作者观察到小胶质细胞在所有三个大脑区域都高度富集,而星形胶质细胞的含量在CB中特别高。特别是当CB标记基因应用于CB bulk DE实验时,作者注意到一种(亚)细胞类型的星形胶质细胞比其他类型的细胞高度富集。作者的观察表明,所选择的细胞类型在空间上是异质性的;这意味着标记基因不仅对细胞类型具有高度特异性,而且对细胞所属的区域也具有高度特异性。由于这一发现,使用位于紧密匹配的大脑区域的细胞类型标记基因来运行LRcell是非常可取的。作者也很好奇从非正常样本进行的scRNA-seq实验中选择的标记基因是否可以作为参考。为了解决这个问题,作者使用了来自HIV疫苗研究的数据,作者观察到细胞类型特异性标记基因的表达在同一细胞类型(如CD8细胞)内的不同时间点上大多是一致的,并且在不同细胞类型之间是不同的。作者还尝试使用从不同时间点收集的样本中鉴定的标记基因进行LRcell分析,并观察到富集信号几乎相同。因此,尽管LRcell中使用的默认标记基因是从对照样本中收集的,但作者认为,当来自正常样本的scRNA-seq数据不可用时,从非正常样本中鉴定的标记基因是可以接受的。
3.8与GSEA的比较
GSEA是一个强大的工具,可以在比较两种生物条件时确定预定义的基因集是否显示出一致的表达变化。通过将细胞类型特异性标记基因视为预定义的基因组,可以用GSEA代替LRcell来识别DEG驱动的细胞类型。为了比较这两种方法的性能,作者使用GSEA重复小鼠AD研究和人类PTSD研究中所做的分析。GSEA结果来源于小鼠AD研究。小鼠AD研究的GSEA结果(图3B)产生了几种同样重要的(亚)细胞类型,包括星形胶质细胞、内皮细胞、小胶质细胞、壁细胞、少突胶质细胞和多突胶质细胞。关联意义导致难以确定哪些(亚)细胞类型可能参与痴呆发病机制。在人类PTSD研究的GSEA结果中观察到类似模式(图3E),这表明单核细胞、树突状细胞和一些T(亚)细胞类型同样丰富。基于上述观察,作者得出结论,LRcell比GSEA更有效地识别在DE实验中受条件变化影响最大的(亚)细胞类型。
3.9 LRcell的特异性、鲁棒性和运行时间
评估LRcell是否表现出良好的特异性(即低假阳性率)是有意义的。为此,作者模拟了在任何(亚)细胞类型中都没有显著DEG的空场景。当将LRcell应用于这种空的RNA-seq数据时,发现LRcell产生的结果要么没有,要么更少,而且显著性更弱,说明LRcell灵敏度良好。为了分析LRcell稳健性,作者从两个角度进行实验:(i)标记基因的数量是否强烈影响LRcell结果和(ii)不同的DEGs检测方法是否影响LRcell结果。作者首先在人类PTSD研究中使用源自PBMC scRNA-seq数据集的不同标记基因数进行LRcell,作者得到了类似的富集性能,这表明了LRcell分析的稳健性。除了DESeq2,使用Voom和Limma对小鼠AD研究和人类PTSD研究进行DEG分析。在相同的标记基因设置下,作者注意到富集模式与FC_11-1相似。小胶质细胞与其他(亚)细胞类型一起高度富集。此外,作者分析了不同模拟场景下LRcell、GSEA和MuSiC之间的执行时间,观察到LRcell和GSEA稳定快速,而MuSiC执行时间随着参考单元数量的增加而增加。
4.结论:
总之,作者利用新出现的scRNA-seq数据开发了LRcell,这是一个R Bioconductor包,利用新出现的scRNA-seq数据,识别在比较转录组研究中驱动变化的(亚)细胞类型。LRcell的基本原理是相信修饰细胞类型的标记基因倾向于向DEG列表的顶部(或底部)富集。作者在各种实验条件下应用LRcell进行全面调查,并成功识别在小鼠AD研究和人类PTSD研究中发挥重要作用的细胞类型。因此,作者相信LRcell可以为研究人员在(亚)细胞类型水平的生物学变化来源提供重要的和新的生物学见解,而无需进行昂贵且费力的scRNA-seq实验。作者从模拟数据和真实数据中得出的结果表明,LRcell与细胞类型去卷积方法是互补的。因此,作者建议将LRcell纳入RNA-seq分析,以全面了解复杂组织内(亚)细胞类型水平发生的变化。
参考文献:Ma W, Sharma S, Jin P, et al. LRcell: detecting the source of differential expression at the sub-cell-type level from bulk RNA-seq data[J]. Brief Bioinform. 2022,23(3):1-11.