几个月前,我开发了一个GEO一站式分析平台(https://easygeo.cn)。当时就有用户反馈,他们在做数据预处理时,出现了一个叫9-Mar的基因,用户觉得可能是我的程序出了问题。
我当时吓了一大跳,这个看着像是一个用Excel做表格处理时候一个常见的错误,Excel把表格里面的某些内容当做日期,然后做了转换。但是我转念一想,我处理的时候都是程序处理,根本就没用Excel啊,程序怎么能出这么大的bug呢?
是不是本身就有一个基因叫9-Mar呢?我把平台的注释文件下下来,grep一下:
看到这儿,我笑了。于是十分理直气壮地回复用户:“本身就有一个基因叫9-Mar,程序完全没问题,放心使用吧。”
几个月过去了,有一天我的领导气冲冲的来找我:“你搞的这个easyGEO有个大bug,竟然有9-Mar这样的基因,这明显不对呀。”
听领导这么说我笑了,原来你水平不过如此。“有个基因就叫9-Mar,不信我查给你看。”于是我就一顿操作,果然又在注释文件里面找到了9-Mar。
“不对,肯定不对。”,领导坚定地说。“你把这个探针的序列BLAST一下我看看。”
这个基因果然不是9-Mar,而是MARCHF9(曾用名:MARCH9)。
这下我彻底服了,看来这次错误应该是用户在提交该平台注释文件的时候出的问题。也就是说GEO官网上面提供的注释文件就存在这个问题。
看来以后在做GEO数据预处理时,应该是探针重注释为优先才对啊!