一般R代码下载其实挺好的,但是网络狗是一件每个探索GEO小伙伴们都要经历的,有时候我们选择更换镜像,想避开蜗牛一般的的网速,但是也是不行,大家就可以去官网下载这个数据集(GSE)
网站连接
- 官网连接 https://www.ncbi.nlm.nih.gov/geo/
- 数据集下载连接 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872
若想下载不同的数据集,只需要更换GSE编号
例如https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872
更换为https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE33335
网页页面
(一)GEO官网
1.此处可进行一些简单的探索,例如输入Lung(肺),可以找到一些你感兴趣的数据集或者实验
2. 也可以输入你想找的数据集(GSE)或者平台(GPL)
(二)GSE网页
- SOFT——可下载GPL文件
- Series——下载矩阵
(三)GSE与GPL下载
-
点击上图,出现下面的页面,大同小异
-
点击上图下载
-
下载成功!✌
-
①打开txt文件
观察读取文件内容,根据特性选择读取R的函数,代码
- ②打开soft文件
(四)网站下载后其文件读取
- GSE 的 gz.文件读取
eSet = read.table('GSE42872_series_matrix.txt.gz',
sep='\t',quote = "",fill = T,
comment.char="!",header=T)
#也可以解压后,直接读取txt文件
eSet =read.table('GSE42872_series_matrix.txt',
sep='\t',quote = "",fill = T,
comment.char="!",header=T)
关于参数
comment.char="!" ——不读取文件中“!”后的内容
header=T——列名
- GPL的soft文件读取
##注意 函数 getGEO
GPL6244=getGEO(filename = 'GSE42872_family.soft')
- GPL也可以代码下载
library(GEOquery)
GPL6244<- getGEO('GPL6244', destdir=".")
- 关于文件读取也总结了一下小传输门——>