ENCODE ChIP-seq数据 | 从下载到分析

很久不见。
错过了很多的询问和回复,很抱歉。
这段时间在整理我的第一篇paper,大部分涉及的东西不太具有可分享性(其实也是应该记录的
———————————————————————————————
今天的笔记是记录处理ENCODE来源的ChIP-seq下载及分析的过程。
———————————————————————————————

1. ENCODE是什么?

用了别人的数据一定要表示尊重的。
ENCODE的全称是The Encyclopedia of DNA Elements (DNA元件百科全书),是一个由美国人类基因组研究所在2003年9月发起至今仍在维护和更新的一个公共联合研究项目(https://www.encodeproject.org/)。

ENCODE现有的数据主要分为了三大块:
(1) Functional genomics: 这部分的数据是我们最常会用到的数据,包括的实验来源数据有
TF ChIP-seq; Histone ChIP-seq; DNase-seq; Mint-ChIP-seq; FAIRE-seq; MNase-seq; ATAC-seq; snATAC-seq; DNase-HS; DNAme array; WGBS; RRBS; MeDIP-seq; Hi-C; intact Hi-C; in situ Hi-C; ChIA-PET; Repli-seq; Repli-chip; PAS-seq; WGS;
total RNA-seq; polyA plus RNA-seq; microRNA-seq; scRNA-seq; small RNA-seq; long read RNA-seq; RAMPAGE; RNA microarray; genotyping array; CAGE; microRNA counts; 5‘RLM RACE;
eCLIP; iCLIP; RNA Bind-n-seq; RIP-chip; RIP-seq; PRO-cap; GRO-cap; PRO-seq; Circulome-seq等等...
(2) Functional characterization: 包括的数据有
enhancer reporter assay; Flow-FISH CRISPR screen; MPRA; proliferation CRISPR screen; STARR-seq; FACS CRISPR screen; perturbation followed by snATAC-seq; perturbation followed by scRNA-seq; CRISPR screen。
(3) Encyclopedia of elements: 这部分的数据经常联合(1)一起进行分析,包括imputation; candidate Cis-Regulatory Elements; chromatin state; representative DNase hypersensitivity sites。
除了这三个之外,ENCODE还有很多专项的研究计划,涵盖了人类样本human donor、类器官、细胞系等。详见主页。
ENCODE计划产出的数据为认识基因组功能元件提供了巨大的数据瑰宝。

2. ENCODE数据的下载

这里以下载Hela细胞ChIP-seq数据为例说明。
首先根据前面的介绍我们知道了ChIP-seq的数据都在Functional genomic这一部分里,点击进入这一部分之后,得到下面界面:

ENCODE Functional Genomics

得到下载的数据可以通过左边的搜索框确定,也可以通过右边的matrix点击相应的格子进入。
这里我们点击了Hela S3对应的TF ChIP-seq方格之后进入以下界面:
Hela S3

在这里,左边的Assay, Analysis等信息的确定是我们下载的关键
对应的实验靶标,样本等根据自己的需求选择就行,这里需要说明的是一定不要忘记设置Analysis
Analysis

如图,Analysis里面的Available file types包括了fastq; bam; bed idr_ranked_peak; bed narrowPeak; bigBed narrowPeak; bigwig; bed broadPeak; bigBed broadPeak。真的很丰富!
在bam里,又有经过了picard等处理的alignment_bam以及unfiltered_bam。 也是根据自己的分析需求进行下载,不用重复下载耽误时间,详细文件说明参见https://www.encodeproject.org/chip-seq/transcription_factor/
ENCODE Alignmen Pipeline

都设定好之后,我们点击页面右边上面的Download,会出现以下信息:

ENCODE 数据下载

这里,(1) Download default files是你经过筛选之后得到的想要下载文件的txt
(2)其中xargs 命令则是需要在Linux终端输入的根据下载文件进行数据下载所用到的语句。
xargs -L 1 curl -O -J -L < downloaded_files.txt
下载完成后的fastq、bam文件一定记得检查md5

3. bam文件的处理

在分析的过程中(1)需要进行特定区间的reads的提取; (2) 对bam进行filteration: 去除mismatch > 4的reads以及去除soft-clipped reads
这部分是这个笔记的精华。也是找了很多资料之后柳岸花明终于实现的目前已知的对新手来说最能理解和操作的方法。

理解这两个需求我们需要复习bam文件
这部分已经有很多很多笔记和教程了,例如https://www.jianshu.com/p/7d15173540ae;大家自行观看。
要明确的是mismatch的信息储存在bam文件第12列的tag里,以XM表示而soft-clipp reads则储存在bam的cigar里
—————————————————————————————

(1) 从bam文件中提取特定基因组区间的reads:
· 当我们需要提取一个区间时,可以使用smatools轻松达到目的:

samtools view -hb chr:start-end  wgs.sort.bam > target.region.bam

· 当我们需要提取多个区间时,使用:

samtools view -hb -L target.bed deduped.bam  > samtools_view_L_target.bam

更多的实现方式见:https://blog.csdn.net/tanzuozhev/article/details/88975801

(2) 去除mismatch > 4的reads;去除soft-clip reads:
这一部分,也找到了很多基于samtools + awk实现的方法,但是最终我使用的是nf-core/mnaseseq (https://hub.docker.com/r/nfcore/mnaseseq) 里面的一个脚本,命令如下:

bamtools filter -in test.bam -out test.filter.bam -script extraction.json

extraction.json的code如下:

{
  "filters" : [
      { "id" : "mismatch",
        "tag" : "NM:<4"
      },

      { "id" : "cigar",
        "cigar" : "*S*"
      },

      { "id" : "insertion",
        "cigar" : "*I*"
      },

      { "id" : "deletion",
        "cigar" : "*D*"
      }
  ],

  "rule" : " mismatch & !cigar & !insertion & !deletion "

}

bamtools 的使用说明参见:https://hcc.unl.edu/docs/applications/app_specific/bioinformatics_tools/data_manipulation_tools/bamtools/running_bamtools_commands/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容