随着微阵列芯片技术尤其是基因芯片的广泛应用,产生了海量的数据,为基因研究提供了大量的高通量数据资料,而GEO数据库就是当今最大、最全面的公共基因表达数据资源。用户不仅可以上传自己的数据,而且还可以免费下载数据库中和自己研究方向类似甚至相同的数据来进行分析,为自己的研究提供一些启示或者验证。
目前GEO数据库提供的下载主要有两种方式:
一、原始数据下载
二、处理好的矩阵下载
以上两种方式下载的数据都不能一步到位到后续的分析中,GEO芯片数据转换器旨在提供一个一步到位的方法将提取GEO芯片数据的样本信息和基因表达数据,工具视图如下:
从图中可以看出,界面极其简洁,一看就会。
step1:导入下载好的数据
step2:点击导出样本信息
step3:选择要转换的ID(比如探针转换gene symbol),选择需要提取的数据列
step4:导出数据矩阵
工具下载链接:http://gap.shengxin.ren/tool/8/
以GEO芯片数据GSE14520为例:
首先从GEO下载GSE14520数据:
从图中可以看出共有488个样本,我们选择MINiML格式的数据(软件只支持该格式),下载完:
然后我们将该文件导入到软件中:
从图中可以看出,软件将该文件解析出来两个平台的数据GPL571和GPL3921,样本数与下载时页面显示一致,我们点击导出样本信息:
最终得到了SampleInfo.xls,打开文件看看如下:
从图中可以看出我们成功的导出了样本的临床信息,主要表中的分号,分号分割的是多次随访,有些样本可能存在多次回访,所以该信息我们使用分号分割
下面我们导出样本数据矩阵,首先我们需要选择导出来的矩阵中是探针形式的还是genesymbol等其他ID形式的:
如图,我们选择geneSymbol形式导出,下一步我们需要选择导出的数据列,这个例子中只有两列:Column1、Column2,从左侧的表中我们可以知道Column2是数据列,所以在step2中选择Column2,对于当多个探针对应一个基因是我们选择其中位数代表该基因的表达值,当然软件提供了三种方式,都可以选择,如下图:
点击导出数据矩阵:
这样我们就将这套GSE数据中的GPL571平台的43个样本的数据导出来了,使用Excel打开数据Merge_GPL571.expro.txt如下:
后续就可以拿 这个表做各种分析啦,妈妈再也不用但是GEO数据下载后探针对应问题啦