基因表达芯片的数值范围是需要关注的信息。
可以从箱线图上面看出大部分的端倪。
特殊数据看过来
options(timeout = 10000)
library(tinyarray)
## tinyarray v 2.4.2 welcome to use tinyarray!
## If you use tinyarray in published research, please acknowledgements:
## We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee,especially Xiaojie Sun, for generously sharing their experience and codes.
a = geo_download("GSE66229")
## 54675 probes, 400 samples from 0.572611153 to 4.467523098
#因为样本数量太多,用sample抽样10个样本出来画箱线图即可。
boxplot(a$exp[,sample(1:ncol(a$exp),10)])
这个数据的范围是在0-4之间的。正常的log之后的数据范围是0~20之间,这个范围很不正常。一般是下载到了log后的数据,又给人log一次,才会这样。
但是呢,这数据下载下来就是这么个范围,并不是多余log导致的。所以我们应该去GEO网站上面找答案啊。
数据处理的细节不在GSE页面上,而是在GSM页面上,也就是说应该点开某个具体的样本来看。
破案了哦,这是log10的数据,是不可以直接使用的,你拿它计算log2FC算出来的值就非常小!
所以需要逆转一下:
exp = a$exp
exp = log2(10^exp+1)
boxplot(exp[,sample(1:ncol(a$exp),10)])
再看这个范围,已经恢复正常咯。
总结
我们并不是提前知道这个数据取了log10,而是看到数据范围在0-4之间,不太正常,所以到网页上查才查到的。
和它一样log10的数据还有一个:GSE62254。一毛一样的情况。
表达芯片的数据范围总结
zscore的数据可以用来做热图,做箱线图,做生存分析,但是一般不用来做差异分析。