在过去的十年,单细胞转录组测序(scRNA-seq)技术彻底改变了人们对细胞异质性的认识。从最初的只能应用于少量的细胞,到现在能够对数千至数百万个细胞进行检测,scRNA-seq对生命科学领域产生了重要影响,并成为该领域重要的研究工具。不过,尽管最先进的scRNA-seq技术已经足够敏感,可以高精度地量化和确定细胞状态,但大多数方法依赖于条形码寡核苷酸引物与聚腺苷化转录本poly(A)序列杂交,来进行RNA捕获和互补DNA(cDNA)合成,这导致一些序列无法被检测到,阻碍了非编码RNA的差异表达和选择性剪切(AS)及选择性启动子(AP)等层面的分析。因此,小编今天和大家介绍的一篇6月27日刚刚发表在Nature Biotechnology(IF:68.164)杂志上的文章,文章介绍了最新开发的 ‘vast transcriptome analysis of single cells by dA-tailing’ (VASA-seq)测序方法,这一测序方法能够克服上述不足。
VASA-seq方法可以在基于平板和液滴微流控的scRNA-seq中捕获非聚腺苷化和聚腺苷化的转录组。目前,VASA-seq是唯一一种结合了高灵敏度、全长转录组覆盖和高通量的单细胞测序技术。文章将VASA-seq应用于发育中的小鼠胚胎的3万多个单细胞,通过分析整个单细胞转录组的动态变化,发现了许多基于非编码RNA的细胞类型标记,并通过检测非聚腺苷化组蛋白基因进行了体内细胞周期分析。此外,研究人员还将VASA-seq与其他流行的scRNA-seq技术进行比较,揭示了VASA-seq的优势。总之,VASA-seq是一种具有高度敏感性的、可扩展的单细胞技术,其在未来可能有助于揭示当前mRNA转录组测序技术无法捕获的生物学信息。接下来就让我们一起来了解下这一未来可期的新的单细胞测序技术的庐山真面目吧。
High-throughput total RNA sequencing in single cells using VASA-seq
基于VASA-seq进行单细胞高通量全长RNA测序
一.背景知识
单细胞RNA测序(scRNA-seq)是研究样本中单个细胞转录组特征的领先技术。目前,至少有20种以上的单细胞测序技术,这些技术在RNA捕获效率、偏差、规模和成本方面存在显著差异。目前具有代表性的两个主流技术为Smart-seq2和10X Genomic,这两种方法都存在各自的不足,例如Smart-seq2每次测序的细胞数量相对较少并存在 pcr 偏好,测序成本也比较高;而10X Genomic的缺点是一般只能检测到转录本600nt以内的信息,其他信息会丢失。因此,小编今天和大家分享另一个高灵敏度、高通量、单细胞全长转录组测序方法VASA-seq,其是一种能够对单细胞的全长转录组进行测序的新技术。
二.主要方法
1. 基于平板(VASA-plate)和液滴微流控(VASA-drop)的VASA-seq工作流:基于平板的技术主要步骤包括:384孔板细胞分选、细胞裂解和RNA碎裂、RNA修复和逆转录及second-strand合成。基于液滴微流控的技术主要流程包括:液滴产生装置的设计、液滴注射装置的设计、微流控模子的光刻、软光刻技术、电池加载和液滴收集及回注室制造、微流体设备操作、聚丙烯酰胺珠条码、油包水乳液中细胞包埋、细胞裂解和RNA碎裂、首次注射RNA和poly(A) 尾、二次注射用于逆转录。
2. VASA-drop和10x Chromium的FASTQ文件预处理:研究中VASA-drop的原始读数使用Python脚本进行预处理。对于每个Read1,提取UMI和细胞特异性条形码。作者为每个可能的条形码绘制了log10(read数)的直方图,并将其拟合到一个多项式函数,该函数显示了两个或三个最小值,作者使用log10(read)的最大值最小的位置作为阈值:只有read高于此阈值的条形码用于下游分析。
3. VASA-plate的FASTQ文件预处理:VASA-plate流程中 中Read1从一个6 nt长的UFI或UMI开始,然后是一个8 nt长的细胞特异性条形码,有384个细胞特异性条形码,每个条形码对应384孔板中的一个孔。
4. 数据映射:研究中将Read2分配给接受的条形码,并使用TrimGalore与默认参数进行修整,接着将修剪后的reads映射到小鼠或人类rRNA。其余的reads映射到小鼠GRCm38基因组或人类GRCh38基因组。
5. 小鼠的VASA-seq文库及10x Chromium文库和单个时间点的scRNA序列分析:VASA-seq研究中Scrublet和Scanpy包与自定义代码一起使用。分析中有85 - 95%的转录本属于蛋白质编码基因,13%的转录本属于lncRNA, 5%的转录本属于小RNA的细胞保留。未剪切和剪切的蛋白编码基因在计数表中被作为不同的条目。组蛋白基因转录总数在35以上的细胞被认为处于s期。通过t检验确定细胞周期基因,分析s期和非s期细胞之间的差异基因表达。接下来,选择平均log表达在0.0125 ~ 5之间的高变量基因,并排除细胞周期基因。对于所有时间点,作者选择了前50个主成分,构建一个连接最近邻细胞的有向图,并将有向图转换为无向图,得到二维UMAP,并分析簇之间的差异基因表达。小鼠的10x Chromium文库和单个时间点的scRNA序列分析与VASA-seq相似。
6. 10x Chromium与VASA-seq胚胎数据的比较:为了进行比较,作者只在基因体的80% 3’端进行reads映射,生成VASA-seq和10x Chromium的计数表,并只使用两种技术中表达的基因进行比较。从合并的VASA 10x Chromium数据集通过PCA进行降维。在组合PCA空间中计算细胞之间的距离,对于给定的簇和参考技术,获得了该簇中的细胞与它们在目标技术中对应的第一个最近邻之间距离的背景直方图。最后,将目标技术中的每个细胞分配到参考技术中其最近邻的簇中。VASA-seq和10x Chromium之间的等效簇被定义为具有相同10x Chromium和VASA簇分配的细胞组。为了给每个等效簇分配一个胚层,研究使用了已发表的10x Chromium数据的注释。
7. VASA-drop小鼠胚胎数据的UMAP:作者首先构建一个有向图,对于每个时间点中的每个细胞,找到来自同一时间点和前一个时间点的细胞子集中最近的前30个邻居。为此,将子集中的所有细胞投影到最近时间点的PCA空间,并计算距离。接下来,提取无向图并将数据投影到二维UMAP中。
8. 扩展转录组注释:研究中每个细胞的FASTQ文件被用来重建转录组和量化AS事件。作者使用基于Hisat2及StringTie2和其他自定义脚本实现了一个自定义计算工作流。首先,通过一个Python脚本删除PCR重复,然后,根据之前获得的Leiden簇对读数进行分组,并使用HISAT2映射到参考小鼠基因组GRCm38。对每个簇的比对进行组装,然后使用StringTie2合并。接下来使用gtfcompare将得到的GTF文件与输入的转录组注释进行比较,其将编码为k、m、n、j、x、i或y的三个或三个以上外显子的新转录本附加到输入转录组注释中,扩展了原始注释转录本集。最后,为了进一步提高潜在的新转录本的质量,作者实施了额外的自定义过滤步骤,并使用MicroExonator获得了一个转录组注释,随后使用自定义脚本进行处理。
9. 跨细胞类型的AS事件的量化:分析中扩展转录组注释的最终GTF使用Whippet来量化亚型和AS事件。作者通过MicroExonator的下游模块运行Whippet,使用scRNA-seq数据分析AS事件,该数据允许将细胞随机聚合成伪块,并跨细胞类型对AS进行两两比较。为了确定不同细胞类型之间AS谱,作者使用PAGA根据基因表达计算细胞簇之间的连通性。然后,比较了连通性≥0.05的72对簇。在每次比较中,每个簇中的细胞被随机汇集,形成至少三个不同的伪块。为了展示检测到的AS事件对蛋白质功能的影响,研究使用drawProteins 包绘制了UniProt中标注的蛋白质结构域和其他特征的比例图。
三.文章的主要内容
1. VASA-seq可以在单细胞中使用平板或液滴检测非聚腺苷化和聚腺苷化转录本
文章首先对VASA-seq进行了总体介绍,VASA-seq第一步是从单细胞裂解物中分离RNA分子,然后进行末端修复和poly(A)引入,实现在条形码寡聚dT探针中合成cDNA。此外,一种独特的片段识别器 (UFI)允许对具有链特异性的分子进行精确定量,利用体外转录扩增条形码cDNA,并清除扩增后的核糖体RNA(rRNA)。VASA-seq的后续流程则类似于CEL-seq。研究人员将VASA-seq工作流应用于平板(VASA-plate)和液滴微流控(VASA-drop)两种技术。其中基于平板的技术是广泛可用的;基于液滴微流控的技术可用于高通量捕获细胞群体,操作时间更少,试剂成本更低。在基于液滴微流控的流程中,研究团队还优化了三种微流控芯片,实现更高通量(图1)。
2. VASA-seq的条形码混合、生物型检测、基因体覆盖及敏感性
在文章的第二部分,为了验证VASA-drop微流控处理过程中液滴室的完整性,研究人员利用小鼠胚胎干细胞(mESCs)和人类HEK293T细胞进行了物种混合实验,结果发现仅有3.08%的异型双倍率。然后,作者也使用HEK293T细胞,将VASA-seq方法与广泛使用的10x Chromium液滴平台、高度敏感的Smart-seq和总RNA-seq Smart-seq-total平板工作流程进行了比较(图1e、f),结果发现VASA-drop和VASA-plate在蛋白质编码基因体中均表现出均匀覆盖。相比之下,10x Chromium的大部分读取位于3端附近。对于包含UMI的读数,Smart-seq对5端有较大的偏差,对于其余的读数则对3端有较大的偏差,这在Smart-seq-total中也可以观察到(图1e)。蛋白质编码基因是所有方法中检测率最高的生物型。然而,VASA-plate和VASA-drop检测到的长非编码RNA(lncRNAs)都是10x Chromium、Smart-seq和Smart-seq-total的两倍。并且只有VASA-seq和Smart-seq-total检测到短非编码RNA (sncRNAs)。然后,作者分析了每种方法对所有注释基因的检测灵敏度和饱和率,结果发现VASA-drop显示出最高的敏感性,其次是VASA-plate,两者的基因检出率均高于Smart-seq和10x Chromium,并优于Smart-seq-total(图1f)。同样,两个VASA-seq工作流程都显示了对蛋白质编码基因的卓越检测。总之,VASA-seq结合了10x Chromium液滴微流控平台的高通量、Smart-seq方法的高灵敏度和Smart-seq-total的广谱捕获非编码RNA。此外,该方法保持了整个基因体的均匀覆盖。
3. VASA-seq扩展了小鼠胚胎中细胞类型特异性标记基因的列表
在这一部分,作者使用VASA-seq的上述优势来扩展和改进当前的小鼠发育图谱。作者使用VASA-drop生成了小鼠原肠发育和早期器官发生的单细胞总RNA-seq图谱,共对小鼠胚胎植入后E6.5、E7.5、E8.5和E9.5期的33662个单细胞进行了测序(图2a)。作者将VASA-seq数据集直接与使用10x Chromium平台生成的参考数据集进行比较发现,VASA-seq检测到的蛋白编码转录本比例略低,但lncRNAs和转录因子(TFs)检测到的水平要高出2-3倍,且sncRNAs仅在VASA-seq数据集中被捕获(图2b)。总的来说,两种方法在不同的时间点上都发现了大多数基因(图2c),但部分基因仅在VASA-seq数据集中检测到。接下来,作者为了探索VASA-seq图谱是否为不同的细胞类型提供了更多的标记基因,识别了VASA-seq和10x Chromium中都存在的等效细胞簇,并通过差异基因表达分析对它们进行比较(图2d,e)。结果发现在10x Chromium和VASA-seq数据集之间共有的43个等价簇,总的来说,VASA-seq检测可到更多的差异上调基因,表明VASA-seq可以扩展已知标记基因的列表,特别是对于未拼接的蛋白编码基因和lncRNA基因。
4. 组蛋白基因作为周期细胞的体内标记物
在这一部分,作者为了进一步识别VASA-seq固有的全局基因特征,通过比较所有基因在等效簇和时间点的平均表达值来进行差异基因表达分析。该分析发现VASA-seq中一个显著高表达的基因子集,包括许多组蛋白基因。作者推断,组蛋白基因表达可以进一步用于识别细胞周期状态,因为大多数典型组蛋白基因在s期强烈上调。分析发现与10x Chromium相比,VASA-seq细胞组蛋白基因总表达的直方图显示其呈双峰分布(图3b)。作者也进一步将不同时间点的所有细胞嵌入到单个UMAP中,并在数据集上可视化组蛋白基因的总表达。结果发现高组蛋白表达的细胞与从低组蛋白表达的细胞明显分离,这是使用标准scRNA-seq细胞周期评分方法无法检测到的特征。此外,VASA-seq数据集中组蛋白表达的双峰分布使细胞被分为s期或非s期(图3d)。接着作者通过从数据集中移除细胞周期基因,回归出细胞周期的影响,并产生了一个具有减少细胞周期模式的改进UMAP(图3d)。接着作者对回归数据进行聚类,并根据差异基因表达获得的标记为每个聚类分配一个细胞类型注释(图3e)。接下来,作者探索某些细胞类型是否循环更频繁,结果发现小鼠胚胎中每种细胞类型处于s期的细胞比例为65±11%。然而,一些细胞类型显示s期细胞比例较高(图3f)。作者还发现从E6.5到E8.5,只有滋养外胚层的s期细胞比例未发生改变(图3g)。其他细胞类型的s期细胞数量在各个时间点上都有所减少(图3g)。此外,作者发现10个单注释基因(图3h)和14个多注释基因在至少一种细胞类型中显著上调。部分组蛋白基因具有胚层和细胞型特异性表达(图3i,)。总之,VASA-seq能够检测到大量的组蛋白基因,这些基因在整个数据集是鲁棒的。
5. VASA-seq增加内含子覆盖率可以提高RNA速度评估
VASA-seq检测到的大量未剪切转录本表明,使用该方法可以增强RNA速度谱,该速度谱是利用每个基因的未剪切与剪切计数之比计算的。因此,在这一部分作者以随机模式使用scVelo包计算所有细胞在全部四个时间点上的速度和置信值。结果发现在UMAP中,速度矢量方向明确地遵循了连续的时间点和细胞类型的进展,再现了之前描述的小鼠胚胎发育的轨迹(图4a)。接着为了与同等的10x Chromium数据集进行对比,研究使用E6.5、E7.5和E8.5时间点对两个数据集进行了重复分析。结果发现与10x Chromium相比,VASA-seq的RNA速度矢量总体上有更高的可信度(图4b)。接下来,作者提取了对RNA速度矢量有显著贡献的基因,发现VASA-seq检测到大量额外的基因(图4c)。对于两种方法共有的基因,作者用scVelo的预测对基因相位图的拟合度(r2)进行量化(图4d),结果发现在拟合优度方面,VASA-seq的拟合优度优于10x Chromium数据。接下来为了确定这些测量是否能够实现更准确的轨迹预测,作者将来自10x Chromium数据集的速度矢量投影到UMAP上,该分析揭示了血液成熟过程中的不同轨迹(图4e)。作者利用scVelo的动态模型对E7.5和E8.5的血细胞类型进行潜在时间预测发现10x Chromium数据集轨迹具有不一致性(图4f,g)。而VASA-seq没有这些观察结果,VASA-seq准确地报告了物理采样时间点的血液成熟情况(图4h)。这些发现强调了使用VASA-seq可以进行更敏感的RNA速度测量来识别跨细胞类型的轨迹。此外作者认为基于VASA-seq对非编码基因体捕获,可以确定跨组织的lncRNA动力学。这些观察结果无法在10x Chromium数据集中复现,因为无法检测到这些lncRNA的未剪切分子。可见VASA-seq具有更好的能够指导分化轨迹和识别新的基因表达动力学的RNA速度矢量。
6. AS在小鼠原肠和早期器官发生中的综合分析
VASA-seq大规模分析全长转录组的能力可帮助研究人员识别跨细胞类型的AS模式。每个剪切节点都与不同类型的AS、不同的转录起始位点或不同的多聚腺苷化事件相关。因此,在这一部分为了检测不同细胞类型的差异剪切点(Differentially included splicing nodes, DISNs),研究人员通过两两比较来检测相关细胞的稳定AS变化。作者将分析重点放在检测到DISNs最多的15对比较中,发现它们主要富集在涉及心脏形态发生、早期原肠、胚胎外组织和血液发育的细胞类型中,表明AS广泛参与这些过程(图5)。
7. 血液和心脏相关细胞类型的AS分析
在文章的最后一部分,作者对血液和心脏相关细胞类型的AS进行了分析。结果发现在所有细胞类型中,与第一心脏场(FHF)相比,原始心管(PHT)表现出更多的AS特征,这些变化发生在心脏经历广泛形态发生时(图6a)。此外,分析也发现Rbfox2的一对相互排斥的外显子是FHF和PHT比较中最显著的DISN(图6b)。此外,作者也进一步展示了UMAP上上述剪切位点的单细胞ψ值,揭示了整个图谱中细胞类型特异性的模式(图6d)。研究人员将与其他细胞类型相偏离的剪切节点标记为剪切节点标记(SNMs),研究检测到参与心脏发育和早期原肠胚发育的细胞类型中SNMs的数量增加。在所有细胞类型中,原始心管的剪切模式最多样化。这些结果表明VASA-seq可以通过测量不同细胞类型的AS来揭示细胞类型特异性基因功能。
到这里这篇文章的主要内容就介绍完了,VASA-seq是一种能够对单细胞的全长转录组进行测序的新技术,其在可扩展性、敏感性、基因组覆盖率和lncRNA检测方面都具有卓越的优势。此外,该方法在基于平板(VASA-plate)和基于液滴微流控(VASA-drop)的流程中都保持了良好性能,这使得高通量单细胞全长转录组分析成为可能。更重要的是,VASA-seq方法需要的试剂成本较低,这使得廉价、高通量、准确的单细胞转录组分析成为可能,可以说这一测序方法有望在未来进一步推动单细胞领域的发展。