前面小编写了几篇主要以实验设计为主导的文献解读,本来是想着给大家多分享一些除了生信之外的科研思路,但感觉反响不是很好。于是,今天小编继续之前的主题,解析如何利用生信的手段筛选出有研究价值的基因,从而做出一篇不错的纯生信文章。
小编上个月有写过一篇解读CD分子家族的基因(CD93,CD96)发表纯生信文章的推文:如何利用大佬的研究发表自己的文章。这一次小编就以最近读文献遇到的另一个基因HHLA2为主线,系统分析如何利用HHLA2基因的特点来开展研究。
下面首先介绍一下这个基因:HHLA2,别名B7-H5, B7H7,看到这个别名有一些免疫知识的同志就能辨别出它是B7家族的基因了。然而,肯定还会有人问B7家族是啥?那小编举几个例子大家就知道了。B7家族属于免疫球蛋白超家族(IgSF),其有很多的成员,包括B7-1(CD80)、B7-2(CD86)、B7-H1/PD-L1(CD274)、ICOS-L/B7-H2(CD275)、B7-H3(CD276)、B7-H4、B7-DC/PD-L2(CD273)和BT3.1(CD277)。相应受体是CD28家族:B7-1/B7-2的受体是CD28/CTLA-4,可交叉结合;人B7-H2的受体是诱导性共刺激分子(ICOS);PD-L1和PD-L2的受体为PD-1。该家族是重要的协同刺激分子,可促进或抑制T细胞增殖和细胞因子产生,对B细胞活化、分子和抗体产生也发挥重要调节作用。
图1:
那就是这样的一个基因家族能做哪些研究呢?首先简单来看两篇这个家族的纯生信文章吧。
第一篇是2016年发表在ONCOIMMUNOLOGY(IF:8.11)的一篇文章:Comprehensive molecular profiling of the B7 family of immune-regulatory ligands in breast cancer。2016年,当很多人还不知道生信是个什么东东的时候,别人已经分析这个基因家族发了文章了,这也说明这个家族基因的重要性。
作者利用cBioPortal数据库的数据,对105种不同癌症中目前已知的10种B7家族蛋白进行了全面的分析,发现B7家族成员在乳腺癌中表达水平升高。在1098名所有类型乳腺癌患者和82名三阴性乳腺癌患者中,B7家族基因的表达水平上调。通过分析这些基因的启动子甲基化水平后,作者发现了在乳腺癌中某些B7家族基因的表达具有受表观遗传调控的基础。此外,B7-H6基因组改变后的患者总生存期明显较差,而且某些临床属性与B7-H6表达也相关,提示B7-H6可能是乳腺癌免疫治疗的潜在靶点。最后,作者通过网络分析确定了BTLA、MARCH8、PLSCR1和SMAD3可能参与了B7家族蛋白调控下的T细胞信号传导。
图2:
紧接着,2018年就有另一篇发表在Cell Proliferation(IF:6.83)的文章:“Comprehensive molecular profiling of the B7 family in gastrointestinal cancer”在消化系统肿瘤中做了B7家族基因类似的生信分析。
作者首先发现B7家族分子在不同类型胃肠道肿瘤中相对于正常组织中都差异表达,并且在肿瘤样本中发现这些基因高频突变。肿瘤样本中B7家族成员的启动子甲基化与B7家族成员的mRNA表达呈负相关,也提示B7家族基因在胃肠道癌症中的表达受表观遗传学调节。其中,胰腺癌中B7-H1、食管癌中B7-H5和肝癌中B7-H6的过表达与较差的总生存率显著相关。最后,通过网络分析,作者鉴定了B7-1/2和B7-H1/DC可能的相互作用蛋白。
图3:
上述只是简单举两个例子,想如今都2021年了,就那么多种癌症类型,B7家族的分析估计已没有任何新鲜感了,也很难挖掘出比较有意义的东西了。那该怎么搞呢?可以想到的是深入探索其中某一个基因来搞事情,这就需要找一个比较有潜力的基因,而且这个基因还不能被研究的太透彻,比如PD-L1,都做出药了,肯定各种机制都研究透透的了。从这点考虑,那就得挑一个相对面生的基因:HHLA2。
在开始通过研究一个陌生的基因做一篇生信文章前,需要先查一查目前这个基因的生信方面的研究进展。通过在pubmed中关键词检索,小编发现这个基因竟然是一个生信热点,其中近两年光胰腺癌和卵巢癌中就发表了3篇纯生信文章,而且都是不错的杂志,分别是
Cancer Letters(IF:8.68), Br J Cancer(IF:7.64),Cancer Cell Int(IF:5.72)
图4:
还有一篇2020年发表在Frontiers in Cell and Developmental Biology(IF:6.68)的文章“Over-Expression and Prognostic Significance of HHLA2, a New Immune Checkpoint Molecule, in Human Clear Cell Renal Cell Carcinoma”比较特殊,下面单独拿出来讲一下。
就是我们一般认为肿瘤相对于正常组织高表达的基因肯定是不利于生存的,因为在肿瘤中高表达且不利于肿瘤细胞的存活,有点类似于“自杀”,从进化的角度看,这很不科学。但是确实有很多这样的基因存在,小编之前也写过一篇推文:匪夷所思,肿瘤中高表达基因预后更好?还专门说明了这种情况。这篇文章作者利用多个数据库的公共数据对HHLA2的差异表达进行了验证,发现HHLA2在肿瘤中广泛表达,特别是在肾癌中,并且通过对自己收集的临床样本进行验证,也说明了同样的问题;最后还发现,HHLA2高表达预示肾癌生存期延长。
图5:
小编通过阅读HHLA2基因相关的综述,发现HHLA2表达在正常人体组织中主要限于肠、乳腺和胎盘中的上皮细胞;而在肿瘤中广泛表达,但是其最初发现是在抗原递呈细胞上的。在免疫系统中,HHLA2由人类单核细胞组成型表达并诱导B细胞,与 细胞、B细胞和抗原呈递细胞上的受体结合,因此HHLA2可发挥共抑制和共刺激功能。此外,作为T细胞共抑制剂,HHLA2抑制人CD4 T和 CD8 T细胞的增殖和细胞因子的产生。此外,HHLA2/TMIGD2 相互作用通过AKT依赖性信号级联反应共同刺激人类 T 细胞生长和细胞因子产生。当在抗原呈递细胞上表达时,HHLA2 通过跨膜和含有免疫球蛋白结构域2 (TMIGD2) 受体刺激 T 细胞增殖和细胞因子分泌,并定位于初始 T 细胞上。随着T细胞活化,TMIGD2表达逐渐丧失,而另一受体KIR3DL3活化而使T细胞功能受到抑制。这种局面就造成了这种高表达,而且结局好或者坏的情况同时存在。
从上述的解读中我们可以看出HHLA2在多种肿瘤中都有纯生信的文章发表,这也说明了它的重要性;此外,HHLA2功能复杂,其所呈现的表型不再是简单的促癌基因抑或抑癌基因,这也更加突出其研究价值。想想看,如果一个基因的功能比较单一,那绝对没有多少可以利用数据挖掘来做文章的意义。恰恰这种功能复杂的基因,才能延申出各种生信分析,且只要言之有理即可。现在候选基因找好了,那下面小编就来示范一下如何对HHLA2开展新的研究。
首先看看HHLA2基因在各个组织的表达情况,这里小编推荐用THPA数据库(https://www.proteinatlas.org/)来看,一方面是因为这个数据库是有蛋白蛋白水平的数据,这样相对来说更准确。因为基因高表达,不一定蛋白就高表达,而只有蛋白水平搞才能说是有功能的。此外这个数据库还整合了其它各大数据库的数据,可以一站式解决研究基因表达的所有问题。
图6:
从图3,我们可以看到HHLA2主要在胃肠道高表达,从这点可以首先确定在消化系统肿瘤中研究这个基因是比较容易做出阳性结果的。然后考虑到现在发表纯生信文章的困境,得为自己留点退路,万一生信部分分析的结果不出彩,那还可以加点实验来验证。简单的实验无外乎qPCR, WB和IHC以及流式实验,qPCR没有什么要求,一般基因都能做,而IHC,WB和流式都是需要抗体的。这里小编普及一下,IHC,WB和流式抗体是不同的,简单说就是做IHC的抗体你不一定能用来做流式或者WB的。查抗体最简单的就是从文献中看,如图4就是一张HHLA2基因的IHC图片。
图7:
但是查文献是比较慢的,小编这里给大家推荐几个网站,可以直接进入这些公司的官网进行查询就非常方便。全世界比较出名的有几大抗体运营商:
Invitrogen(https://www.thermofisher.cn/cn/zh/home.html),Abcam(https://www.abcam.com/),Bioledend( https://www.biolegend.com/).BD(https://www.bdbiosciences.com/en-us)等,小编这里不一一列举了。通过检索发现Abcam就有做IHC/WB的HHLA2抗体(图8);此外,因为HHLA2是表面蛋白,Invitrogen还有做流式的抗体(图9)。那这样就很棒了,想想如果能用流式细胞术分析肿瘤细胞或者免疫细胞HHLA2蛋白的表达情况,那这文章的档次就有了相当大的提高。
图8:
图9:
上面简单的看过了HHLA2在各器官的表达水平,也找到了做实验用到的抗体,有了这些基础加上一套完整的生信分析就差不多可以发表一篇不错的SCI了。但是如果想在上个台阶,那就需要联系临床实际的运用了,肿瘤研究可结合的临床表型有很多,如焦亡,转移,免疫治疗等。介于小编刚写过“如何从肿瘤免疫应答的角度设计研究思路?”,那就接着说一下HHLA2联合免疫治疗的生信分析思路吧。
小编简单的在谷歌中进行关键词搜索了一下,就找到了两篇分别在2019和2020年发表在J Immunother Cancer(IF:13.75)上的文章(图10),而且都是国内学者在胆管癌和肾癌中联合HHLA2和PD-L1免疫治疗来开展的研究。
图10:
:
这两篇文章除了主题类似,文章脉络和思路也基本一致,可谓英雄所见略同。此外,从这两篇文章发表的期刊质量来看,目标基因结合临床表型,就具有了冲击更高水平文章的潜力。
总结
最后,小编对全文进行总结一下。首先我们可以通过平时阅读新发表的文献找到后续研究的基因,这样有两个好处:其一,看自己领域文章找的基因往往功能和自己研究的方向相关,做对应的功能验证实验也轻车熟路;其二,最新发表的文章中被揭示的基因往往没有被研究的太深入,这就有了基于数据挖掘做生信套路的基础。待选定基因后,我们首先可以看看这个基因属于哪个家族,针对基因家族进行的分析往往能揭示出一定规律,从而较容易发文章。如果基因家族的分析已经被做过,或者没有做的价值,那就只能通过深入研究这个基因本身来进行搞事情了。像上面小编示例中那样,可以先看看这个基因在各个器官的表达情况,表达太低的基因往往很难做出阳性结果;此外,如果在各个器官的表达水平都普遍较高,那这样的基因可能是作为管家基因等细胞基本功能维持所需要的,就很难有太出彩的发现。最后就是看这个基因能和哪些表型结合,做肿瘤研究的无怪乎就要向患者的生存,肿瘤的转移,免疫治疗应答等方面去想,只要能结合到一种表型就可以开展研究了。当然,如果能加一些简单的实验验证就再好不过了。