知识中心 - 北京概普生物科技有限公司(GapTech)

SXR202204006C + 单细胞分型方法怎么选？一文治好你的选择困难症！

生信干货古勿 ·2022年4月28日 13:32

早吖，小可爱们！今天来给大家整点儿干货，分享一篇BIB杂志关于单细胞分型方法的综述，相信我，做单细胞的和不做单细胞的看了都不亏！PS:所有的参考文献链接小编都放在文末了吆~

关于scRNA-seq，相信大家或多或少都有了解，它让我们可以在细胞水平上分析表型的异质性，在拿到单细胞测序数据之后，对每一类细胞群进行注释是后续分析的基础，也是整个单细胞分析流程中最重要最繁琐的一步。好在随着技术的推广，出现了越来越多的细胞分型方法，让我们有机会可以站在前辈们的肩膀上，从众多的方案中进行选择。但这毕竟不是买菜，可以看哪个顺眼买哪个，当你用自己的数据简单套用别人的方法时，可能会出现买家秀和卖家秀的差距，这就说明maybe你的方法选错了，那到底怎么选呢？别急，跟着小编往下看！

一、注释方法有哪些？

现有的识别单细胞类型的方法，大致可以分为有监督和无监督两类。有统计学基础的同学，对这两个概念应该不会陌生。所谓无监督的注释方法，就是基于各种聚类算法，将所有没有标签的细胞整合到一起，根据它们基因表达谱的相似性进行分组，然后利用已知细胞类型的marker基因列表为每一组赋予标签。接下来提到的这类方法主要有Seurat v3 clustering、raceID3、LIGER、SC3、Monocle3、TSCAN、pcaReduce、CIDR、SAME-clustering和SHARP这10种。

有监督的方法呢，首先需要有一个细胞类型已知的参考数据集，根据这个数据集构建训练模型，用来预测自己数据集的细胞类型。比如CellAssign、Seuratv3mapping、scmap-cluster、scmap-cell、singleR、CHETAH、Garnett和SingleCellNet。

当然，每一类方法远不止这几种，比如对于有监督的方法，参考文献2就囊括了32种，并将它们又细分成了三类，感兴趣的小伙伴可以看一下原文哈！今天，咱们就比较一下常用的这十多种。

二、（*＾-＾*）vs ( ╯□╰ )

有监督的注释方法：这类方法利用参考数据中的先验知识，直接赋予细胞类型标签，不需要使用者熟悉每类细胞的marker genes。当数据集很大时，同样适用。但是，可以识别的细胞类型仅限于参考数据中有的，可能无法识别出新的细胞类型。虽然一些方法会将新的细胞类型标记为“未分配”，但还是需要对这类细胞做进一步分析。此外，有时获取合适的参考数据集也具有挑战性，尤其是对于新的组织类型，可能需要大量的检索。

无监督的注释方法：这类方法不需要参考数据集，也不需要单独把每一个细胞分型，常用的聚类方法有基于图的聚类、层次聚类和分区聚类。但是，一些参数需要手动设置，比如将细胞分成多少簇，即使一些方法会提供参考，选择时依旧需要谨慎，而且，将生成的细胞簇赋予类型标签也并非易事，它从根本上还是依赖于已知的marker基因列表，会不可避免地会引入错误和偏差。此外，无监督方法也无法很好的利用特异细胞类型基因表达的先验知识。

三、方法测评

1、评估流程

作者对上文提到的8种有监督注释方法和10种无监督注释方法进行了评估（图1），参数大多使用默认值或者根据软件的建议选择，除了以下几处：(1) 由于CellAssign和Garnett所用的marker基因有缺失，也有分歧，作者使用Seurat提供的函数为两种方法生成了新的marker基因列表，以避免使用不同的标记基因造成的差异；（2）无监督注释方法聚类数目的选择标准不同；（3）除了Seuratv3mapping/clustering、LIGER和raceID3方法本身可以去除批次效应，对其他方法，作者用MNN方法做了处理。

2、数据集的使用

作者总共使用了14个来自不同组织、疾病、物种和技术平台的数据集来进行评估（表1）。为了确保完整性，作者只对这些原始数据集做了简单的质量控制，没有去除小群体的细胞类型或者非典型的细胞类型，也没有过滤基因。

研究使用5倍交叉验证，从细胞数量、测序深度、批次效应、参考偏差、细胞类型数量、细胞群失衡、新/稀有细胞类型的识别、计算效率和鲁棒性等方面对这些方法进行了综合的评估。

表1. 所用数据集

Dataset	Annotation	Tissue	Number of cell subtypes	Number of cells	Number of genes	Protocol	Condition
PBMC Zheng	1	PBMC (human)	8	61,309	32,738	10X	Healthy
PBMC SLE A	2	PBMC (human)	8	3,582	32,738	10X	SLE
PBMC SLE B	3	PBMC (human)	8	4,184	32,738	10X	SLE
PBMC SLE C	4	PBMC (human)	8	6,115	32,738	10X	SLE
PBMC SLE Stim	5	PBMC (human)	8	14,032	32,938	10X	SLE & INF-beta stimulated
PBMC SLE Ctrl	6	PBMC (human)	8	14,526	32,938	10X	SLE
Segerstolpe	7	Pancreas (human)	15	2,931	25,525	SMART-Seq2	Healthy
Muraro	8	Pancreas (human)	9	2,123	19,127	CEL-Seq2	Healthy
Xin	9	Pancreas (human)	8	1,588	39,851	SMARTer	Healthy
Alzheimer	10	Brain (human)	8	70,634	17,926	10X	Alzheimer
Autism	11	Brain (human)	7	104,559	59,074	10X	Autism
hMidbrain	12	Midbrain (human)	23	1,695	19531	10X	Healthy
mMidbrain	13	Midbrain (mouse)	24	1,518	18555	10X	Healthy
Human Cellular Landscape	14	Mixture of tissues (human)	63	599,926	1772	SMART-Seq2	Healthy

四、评估结果看这里！

用以评估方法性能的指标分为两类，一类是实验数据集的属性，如数据复杂性和细胞群的不平衡等，另一类评估分类/聚类结果，例如ARI和BCubed F1分数，ARI指标可以衡量在不考虑类标签的情况下，算法将相同类型的细胞分到一组的能力。BCubed F1得分用以评估算法的精确度和召回率，当罕见细胞类型比较多时，能更好的评估分类性能。

总的来说，根据每个方法中，13个数据集的ARI分布情况可以发现，监督方法基本优于无监督方法（图2）。作者进一步分析后，认为原因有两个，一是指定的簇数和真实的簇数之间的差异，差异越大，监督方法越优于无监督方法；二是数据集的复杂性。如图3所示，当数据集复杂度较低时（图左侧），有监督的方法明显优于无监督的方法，而当数据集复杂度增加时（图右侧），两类方法的ARI 分数接近，表明性能也相差无几。接下来，分别看看不同因素对这两类注释方法的影响。

1、细胞数量的影响

对任何一种监督模型来说，训练数据越大，偏差就越小，预测结果也更好，但是当数据集大到一定规模后，性能就不会再有所提高。当用大小不同的数据集进行测试时，大部分有监督的方法性能恒定，而无监督方法的性能则受到很大影响（图4），这跟预估的细胞簇数有关。如果没有预先指定簇数，数据集越大，就能得到越多的细胞簇。当数据集较小时，无监督方法的性能与监督方法相当。

2、测序深度的影响

为了评估测序深度对细胞分型性能的影响，研究使用了五个具有不同测序深度的测试数据集。 总体而言，监督方法在所有测序深度上都优于无监督方法。所有方法的性能都随着深度的增加而显著提高，表明更深层次的测序将在一定程度上有助于聚类和分类。但当达到一定阈值，就不再有提升，至于这个阈值是多少，因方法而异，文章也没有过多探讨。

3、批次效应的影响

目前，去除批次效应的方法已经有不少，像MNN、ComBat-seq、iNMF、SMNN和Harmony，作者选择了MNN对八组数据集进行批次效应处理。研究表明，除了CHETAH之外的大多数监督方法在校正批次效应后都没有表现出性能上的提升，而大多非监督方法（除monocle3外）的性能在校正之后，则变得更差，这与它们的聚类策略有关。

4、参考数据偏倚的影响

对于有监督的方法来说，选择一个与所分析的数据集在所有方面都类似的训练数据集是很难的，因此，不可避免的就会存在参考偏差，而无监督的方法则不存在这种情况。文章中，作者研究了有监督的方法在不同类型的参考偏差下的表现，包括level 1:个体水平偏差、level 2:实验条件偏差、level 3:个体和批次水平偏差以及level 4:个体、实验和批次偏差，并将它们与无监督方法进行了比较（图5）。总的来说，参考偏差的水平越高，有监督方法的性能就越差，Seurat v3 mapping 和singleR 在不同参考偏差水平之间的性能变化最小。对大部分方法来说，实验条件引入的参考偏差大于个体水平。有意思的是，有监督的方法在所有参考偏差水平上仍然优于无监督方法。

6、细胞类型数量的影响

理论上，数据集的复杂性很大程度上取决于细胞类型的数量，细胞类型越多，注释难度就更大。作者发现，当数据集的复杂度较高时，有监督的方法和无监督方法的性能与细胞类型的数量呈负相关，但前者优于后者（图6）。不过，当细胞类型的数量越多，数据集的复杂性越高，这种优势就越小，甚至会消失。

7、细胞群失衡的影响

在一个复杂组织中，细胞类型比例可能极度失衡，这种情况下，那些稀有的细胞类型往往是我们感兴趣的。然而，在确保方法精确度的同时，可能会无法识别出稀有细胞类型。通过对这十多种方法的分析，作者发现，总的来说，对于不平衡测试数据集，有监督方法比无监督方法更稳健，特别是当数据集包含足够多的稀有细胞类型时。因此，当数据集存在严重的不平衡，并且想要研究稀有细胞类型时，有监督的方法可能会是更好的选择。

8、识别新细胞类型的能力

当一类细胞与任何参考细胞类型都不相似时，许多有监督的方法会将其标记为“unassigned”，无监督方法则不受参考数据的限制，可以在不同的簇中分离出新的细胞类型。因此，同有监督的方法相比，无监督方法能更好的识别未知的细胞类型（图7）。对于识别未知细胞类型比已知细胞类型更重要的情况下，采用无监督方法可能会更好。

9、计算效能的比较

在选择方法时，运行时间也是我们必须要考虑的一个因素。基于此，作者将18种方法分为了快速、中速和低速三类（图8）。在11种快速方法中，当细胞数量增加时，有8种表现出了良好的计算速度和可扩展性，能够在十分钟内标记/聚集50,000个细胞。当细胞数量不大于 30,000 个时，Seurat最快，而当细胞数量不小于40,000 个时，SHARP最快。总的来说，无监督方法在速度和可扩展性方面要优于有监督方法。

最后，作者又使用大规模的数据集（细胞数量∼600,000）对以上因素进行了分析，结果基本一致。但也有一些新的发现，比如，Seurat v3 mapping是所有方法中性能最好的，Monocle3则是无监督方法中表现最好的；当细胞数相对少时，无监督的方法倾向于得到比真实数目少的簇，细胞数大于60,000之后，有监督方法的性能基本不再变化等等。

五、小结一下

做了这么多比较，最后肯定是要复盘一下，来个大排名的（图9）。不难发现，（一）、除了识别未知细胞类型和计算效率之外，在其他方面的比较中，都是有监督的方法更胜一筹。（二）、对于有监督的方法来说，更多的训练细胞、更少的细胞类型、更高的测序深度、训练集和测试集之间更相似的细胞类型比例、更平衡的训练细胞类型比例和更少的偏差参考，会得到更好的结果。（三）、对于无监督方法，更高的测序深度、更少的细胞类型以及真实簇和估计簇数之间更小的差异，也会得到更好的分型结果。（四）、对于这两类方法，都没必要去除批次效应。有些情况下，去除了反而可能会使结果更糟。（五）、在有监督的方法中，Seurat v3 mapping和SingleR整体的准确度最高，处理超过10,000个细胞的大型数据集时，前者通常是更好的选择。（六）、在无监督方法中，Seurat v3 clustering具有最好的整体性能，计算速度也很快，是无监督方法中的首选。（七）、无监督方法通常比有监督方法更快，尤其是SHARP具有最佳的计算效率和可扩展性，以及良好的聚类性能，可以用来处理超大型数据集。

好了，今天的分享到此结束，have a nice day, bye!

1. Sun X, Lin X, Li Z, Wu H. A comprehensive comparison of supervised and unsupervised methods for cell type identification in single-cell RNA-seq. Brief Bioinform. 2022 Mar 10;23(2):bbab567. doi: 10.1093/bib/bbab567. PMID: 35021202; PMCID: PMC8921620.

2. Xie B, Jiang Q, Mora A, Li X. Automatic cell type identification methods for single-cell RNA sequencing. Comput Struct Biotechnol J. 2021 Oct 20;19:5874-5887. doi: 10.1016/j.csbj.2021.10.027. PMID: 34815832; PMCID: PMC8572862.