【deeptools相关】读取Excel文件,画样本相关性散点图

Tips:

https://deeptools.readthedocs.io/en/develop/content/tools/plotCorrelation.html
我们比较样本的重复性，一般都是用deeptools 中 plotCorrelation 画散点图。比如下面类似的命令.

### Step1 multiBamSummary
$ multiBamSummary bins 
--bamfiles *.uniq.bam 
--minMappingQuality 30 
-out scores_per_transcript.npz 
--outRawCount scores_per_transcript.tab

### Step2 plotCorrelation
$ deepTools2.0/bin/plotCorrelation \
-in scores_per_transcript.npz \
--corMethod pearson --skipZeros \
--plotTitle "Pearson Correlation of Average Scores Per Transcript" \
--whatToPlot scatterplot \
-o scatterplot_PearsonCorr_bigwigScores.png   \
--outFileCorMatrix PearsonCorr_bigwigScores.tab

得到图：

image.png

假设只有tab 文件，但plotCorrelation 只能识别npz 格式（numpy存储的格式。类似R里面.RData 一样，存储特定数据结构）,要怎么才可以画图？
也就是说tab 格式如何转化成npz 格式呢？

查看npz 里面是什么东西读取npz 的方法：菜鸟教程

image.png

类似字典，有labels 和matrix 两个键。我们将tab整理成这个格式就可以了。

实践：

1. 下载文章数据 41556_2019_383_MOESM9_ESM.xlsx ，发现数据都是excel 格式保存的。如下图：

image.png

需要读取excel 的sheet 里面的数据，保存为fig1b_scatterplot.csv。
R代码：

########################
rm(list=ls())
options(warn = -1)
options(stringsAsFactors = F)
setwd("C:/Users/16926/Desktop/2020-1/单细胞/sc-ChIP")

##############
## 1.加载包,读取xlsx(最新格式)
## 参考：
## 1.不同R包比较 https://www.jianshu.com/p/5ed6e4b5d181
## 2.openxlsx::read.xlsx 参数介绍 ：https://blog.csdn.net/zyunnketsu/article/details/78053179
##############
library(openxlsx)
a<-read.xlsx("41556_2019_383_MOESM9_ESM.xlsx",
             sheet=1,startRow = 14)#文件名+sheet的序号，简单粗暴
head(a)
s1 <- object.size(a)
print(sl, units = "auto", standard = "SI") 

write.csv(a,file = "./fig1/fig1b_scatterplot.csv",row.names = F)

提取到fig1b_scatterplot.csv 内容如下：

image.png

2.将fig1b_scatterplot.csv 转换成npz 格式

####################
## time：2020/3/23 10:27
## author: caokai
## email：1692679247@qq.com
## aim ： convert csv format to npz format to use deeptools software
####################

####################
## 1.加载模块
import os
import numpy as np
import pandas as pd
os.chdir("C:/Users/16926/Desktop/2020-1/单细胞/sc-ChIP/fig1")
os.listdir(".")


####################
## 2.读取及其保存格式
## 参考：np：https://www.runoob.com/numpy/numpy-io.html
## pd: https://blog.csdn.net/xidianbaby/article/details/88831145
## mian：https://blog.csdn.net/yuzhihuan1224/article/details/99634355?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

dat = pd.read_csv("fig1b_scatterplot.csv")



labels = np.array(dat.columns[3:], dtype="|S22")  # 去除前三列,labels转换成np np.array([bytes(c, encoding='utf8') for c in dat.columns])
matrix = dat.iloc[:,3:].values   # 去除前三列,value转换成np np.array(dat[dat.columns[3:]])
## 计算log10(FPM)
matrix = np.log10(matrix+1)


## 保存为npz 格式
np.savez(r"fig1.scatterplot.npz",

         labels = labels,
         matrix = matrix)

data_z = np.load("fig1.scatterplot.npz")
print(data_z.files) # 查看各个数组名称
print(data_z["labels"]) # 数组 labels
print(data_z["matrix"]) # 数组 matrix

所以我们得到了fig1.scatterplot.npz 数据，可以直接画图了。

3.deeptools 画图

plotCorrelation   -in fig1.scatterplot.npz 
--corMethod pearson 
--skipZeros --plotTitle 'Pearson Correlation' 
--whatToPlot scatterplot 
--removeOutliers 
-o fig1_scatterplot_PearsonCorr.png 
--outFileCorMatrix fig1_scatterplot_PearsonCorr.tab

散点图如下图：

2020年3月23日15:20:23

总结思考：

读取Excel 的包推荐openxlsx
了解npy 和npz 差别，及其numpy修改数据格式的方式。
np.array(dat.columns[3:], dtype="|S22")，将字符串转换成bite 类型。
deeptoools 无法对数据进行log10 scale（只提供--log1p：自然对数e）
颜色deeptools --colorMap参数，画散点图没有用.

欢迎大家讨论~

最后编辑于：2020.04.06 17:33:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345

【deeptools相关】读取Excel文件,画样本相关性散点图

Tips:

实践：

1. 下载文章数据 41556_2019_383_MOESM9_ESM.xlsx ，发现数据都是excel 格式保存的。如下图：

2.将fig1b_scatterplot.csv 转换成npz 格式

3.deeptools 画图

总结思考：

推荐阅读更多精彩内容