细胞类型注释,用它就够了
>导读
>数据库网址
>数据库建设背景
>数据库介绍
>数据库使用指南
(1)主页介绍
(2)物种/组织/细胞/基因检索
(3)数据概览
(4)6个单细胞数据分析工具
(5)数据资源下载
>总结
导读
细胞标志物(Cell Marker)是用来对细胞定义和分选的重要标志,无论是在流式细胞术等湿实验对特定细胞类型进捕获,还是在单细胞测序数据中精确鉴定细胞类型,都需要借助Cell Marker。因此,CellMarker数据库在2018年应运而生。近期,CellMarker 2.0数据库升级版在Nucleic Acids Research发布,新增一系列单细胞测序数据分析相关的功能,是探索人类和小鼠不同组织中各种细胞类型标记物的宝贵资源。
数据库网址
http://bio-bigdata.hrbmu.edu.cn/CellMarker
http://117.50.127.228/CellMarker/
数据库建设背景
单细胞测序技术的发展为研究细胞的基因结构和基因表达状态,从单细胞水平探索细胞之间的异质性提供了强有力的技术支持。为了区分不同组织中的不同细胞类型,CellMarker 1.0使用户能够在人类或小鼠的各种器官中搜索所有已知的实验支持的不同细胞类型的标记。随着对单细胞水平研究的兴趣日益浓厚以及高通量技术的应用,各种细胞类型中的标记物数量迅速增加。此外,基于单细胞数据的肿瘤内异质性、细胞间通讯和细胞分化轨迹也得到了广泛的研究。因此,迫切需要用更多的资源和改进的工具来更新CellMarker。值得注意的是,细胞标记物可以基于单细胞测序技术分为不同的组,包括10x Chromium、Smart-seq2和Drop-seq等。最近,一些数据库从可用的文献信息中手动收集不同细胞类型的标记基因,例如PanglaoDB、PCMDB和CancerSEA。尽管这些数据库为细胞cluster的注释提供了宝贵的资源,但是存储在这些数据库中的信息具有一定的局限性,例如缺乏标记物的组织来源、类型和测序技术信息等。目前缺乏一个全球性的高质量数据库来存储和分类各种人类和小鼠组织中不同细胞类型的标记。
数据库介绍
CellMarker 1.0版本于2018年首次发布,由哈尔滨医科大学李霞教授团队建设完成,CellMarker 2.0是一个更新的数据库,提供了人/鼠的组织中不同细胞类型的marker基因集合。此外,该数据库提供了用于分析单细胞测序数据的网络工具。CellMarker 2.0亮点可以概括为以下几个方面(1)在以前版本的基础上增加了36300个组织细胞类型标记条目、474个组织、1901个细胞类型和4566个marker基因。当前版本招募了26915个marker基因、2578个细胞类型和656个组织,总共有83361个组织细胞类型标记条目。(2)新增来自10X Chromium、Smart-Seq2、Drop-seq等48种测序技术来源的标记信息。(3)新增29种细胞标记,包括蛋白编码基因lncRNA、假基因等。(4)开发了6种灵活的网络工具,包括细胞注释分析、细胞聚类分析、细胞恶性分析、细胞分化分析、细胞特征分析和细胞通讯分析,用于单细胞测序数据的分析和可视化。
数据库使用指南
(1)主页介绍
主页提供了一个人类和小鼠的全局解剖地图,方便用户快速探索感兴趣的物种、组织和细胞类型的marker基因,通过点击相应图像即可进入对应的数据模块。下侧是六种单细胞分析工具的入口,用户点击可以进入相应的分析版块。在主页的右边是一个快速搜索框。用户可以通过输入组织名称、细胞名称、marker基因名称来搜索。
(2)物种/组织/细胞/基因检索
在菜单栏选择进入“Search”页面,数据库提供了三种检索的方式:(1)按照组织类型、细胞类型检索,用户可以直接在页面上选择相应的物种、组织、细胞类型,进而跳转到该细胞类型对应的marker基因页面。(2)按照基因检索,数据库支持三种基因输入形式,Gene alias、Gene symbol和Gene Entrez ID。(3)快速检索,是一种混合检索模式,既可以检索基因名,也可以检索组织、细胞类型。
数据检索之后,进入数据检索结果页面。数据库提供了2种数据展示形式。结果页面的顶部是经典的词云图,用以展示所有基因出现的频次高低,越是高频使用的基因,它的字体越醒目。在词云图的下方的表格中展示了每个marker基因条目的详细信息,整体上分为实验来源、综述来源和计算分析三个来源的,每个条目包括物种、组织、细胞类型、疾病/肿瘤状态、marker、文献来源等。
通过输入特定的marker基因名来检索的话,还会有一个特殊的结果呈现形式。例如输入“JCHAIN”后点击查询,结果会返回一个组织-细胞类型的dotplot,对于该基因的分布一览无余。
(3)数据概览
“我没有感兴趣的细胞类型,点进来只是来看看数据库都存储了哪些数据资源”。为了解决这个问题,数据库单独提供了“Browse”页面,按照物种-组织-细胞类型-marker基因的数据层级逐级呈现数据。用户在此页面可以快速浏览数据库包含的所有组织、细胞类型信息。
(4)6个单细胞数据分析工具
作为数据库升级的重头戏,数据库开发者提供了6个单细胞在线分析工具,并提供了几十套公共数据库中的数据供用户探索。很遗憾,数据库目前不支持用户自定义的数据上传之后进行分析,但这丝毫掩盖不了CellMarker的光辉。接下来详细介绍这6个分析工具的功能。
(4.1)Cell Annotation
单细胞数据划分cluster之后不知道这个cluster是哪种细胞类型怎么办?Cell Annotation工具能够帮助解决细胞类型注释的问题。用户需要准备一个基因list,比如cluster的差异上调基因,在选择好物种、组织类型之后,输入该基因list即可进行比较分析,数据库会返回一个热图的结果,多个marker均表达的细胞类型即最有可能是需要注释的细胞类型。
(4.2)Cell Clustering
细胞聚类分析允许用户能够探索不同数据集中的细胞cluster划分以及细胞类型注释结果,提供了tSNE和UMAP两种降维方式的结果,同时也提供了每个细胞cluster的差异表达基因列表,方便用户查询、下载。
(4.3)Cell Malignancy
对于肿瘤的单细胞数据来讲,非常关键的一步是细胞类型的划分,即哪些是正常细胞、哪些是肿瘤细胞。基于肿瘤细胞常常会发生大片段的拷贝数扩增或缺失的基因组特征,开发者整合了通过scRNA-seq推测CNV的inferCNV工具,对多个数据集进行处理,用户可以探索特定癌症类型/GEO数据集编号的每种细胞类型所携带的拷贝数特征信息。
(4.4)Cell Differentiation
单细胞分析常见的降维方式是tSNE和UMAP,但是探索肿瘤演变的规律还需要依赖伪时序分析。开发者整了Monocle3的方法分析多个公开数据集,并将tSNE、UMAP、伪时序分析结果集成到一个页面,方便用户比较分析。此外,数据库支持基因的表达值查询,例如数据基因“CD3D”,可以发现在GSE205490 AML白血病数据集中,CD3D在伪时序的晚期表达水平较高。
(4.5)Cell Feature
本模块支持用户探索不同的cluster中基因表达和细胞类型分布的情况。用户选择感兴趣的数据集之后,输入相应的基因名称,可以查询该基因在哪个cluster中是处于高表达的状态。
(4.6)细胞互作分析
细胞互作分析是肿瘤研究当中非常重要的一部分,免疫细胞杀伤肿瘤细胞可以通过细胞互作分析清晰的观察到。开发者集成了CellPhoneDB工具对多个数据集进行细胞互作分析,并将结果以pdf的形式展示(pdf存放的矢量图可以直接下载用来发文章,好贴心呀有木有,但是注意引用数据库呦)。数据库提供了四种数据结果,互作得分热图(未标准化)、互作得分热图(log标准化)、互作得分网络和互作得分dotplot。在数据库页面上显示不全,建议大家下载之后可以看到相应结果图片的全貌。
(5)数据资源下载
网站上你能看到的所有数据基本都可以下载,在下载页面开发者也提供了一键下载模式。
总结
随着高通量测序技术的发展,近年来细胞标记的数量显著增加。相关文献的快速增长表明,迫切需要收集相应的数据集并更新第一版CellMarker数据库。目前,CellMarker 2.0的数据集和功能得到了很大的改进。CellMarker 2.0扩展到656个组织,2578个细胞类型和26 915个细胞标记。相信在不就的将来,会有更多的物种和更多的信息加入到Cell Marker数据库当中。