KEGG AutomaticAnnotationServe
l
在KEGG数据库中,有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签。对于酶来说,40-70%的序列相似性对于功能的预测有90%的准确性。直系同源基因是来自于相同的祖先的基因分化,保存在不同的物种中的功能基因。在实际操作中,可以通过双向BLAST,来判断两个基因是否是BBH(bi-directional best hit),从而来判断两个基因是否是直系同源基因。因此,对在许多物种中的直系同源基因的鉴定是对新测序的基因功能预测的最便捷的途径。而KEGG 数据库就是通过KEGG Orthology (KO)系统来跨物种注释的一种机制。KAAS的整个预测流程如下图所示:
KAAS注释软件在运行中提供两种策略,the bi-directional best hit
首先将要注释的基因作为 query,和KEGG数据库中的参考基因进行blast比对,输出的结果(E>10)称为homolog。同时把 KEGG数据库中的参考基因作为query,将要注释的基因作为reference,进行blast比对。实际上KEGG 在做注释的时候,并不是把所有的基因都作为 refernce,而是按照是否来自同一个基因组分成一个一个的小的 reference,分别进行 blast。
假设有两个基因组 A 和B,含有的基因分别为 a1,a2,a3…an;b1,b2,b3…bn 先用A作为 query,B作为refer,进行blast比对,A中的基因a1对B中的基因进行遍历,和基因b1有最高的 bit score。现在用B作为refer, A作为query,进行blast比对,B中的基因b1对A中的基因进行遍历,如果bits score最高的是a1,则a1和a2就是一个Bi-directional best hit (BBH),但也有可能不是a1,只能成为 Single-directional hit (SBH)。
BHR( Bi-directional hit rate)是KEGG在Bi-directioanl Best Hit 的基础上进行修改的一个选项,BHR = Rf* Rr。用刚才的A和B作为例子。Rf为用A作为query,B作为Refer,
Assignment score是该软件定义的另一个参数,以便于从各组ortholog 为query基因挑选最合适的KO条目。通常选择得分最高的 KO作为这个基因的 KO。最终通过该KO条目对该基因进行细胞通路的注释,如下图:
l
KAAS在线软件的界面如下图所示:
首先根据自己提交数据类型(Complete or Draft Genome、Partial Genome、Metagenomes),选择对应的提交界面。在这里我们选用Complete or Draft Genome,进入以下界面,并按照图中红色方框及文字指示进行操作。对于比对策略的选用,一般情况下对于单个完整的基因组都选用BBH,尽管速度稍慢(耗用时间为SBH的2倍),但准确性较高。而对于部分基因组及宏基因组,建议使用SBH。
最后生成的结果通过邮件发给提交的邮箱中,如下图,可以根据需要进行下载:
文章转载自新浪博客:http://blog.sina.com.cn/s/articlelist_2430934752_0_1.html
欢迎关注我们