HiC-Pro实战 #3D基因组 #表观遗传

首先在此感谢jimmy非常详尽的教程 HiC数据分析实战之HiC-Pro
本文为三维基因组学习笔记的第二篇,主要记录HiC-pro的安装遇到的问题及部分实战。


安装

  1. 首先根据要求说明安装依赖,可由conda安装,注意版本
  • The bowtie2 mapper
  • Python (>2.7, python-3 is not supported) with pysam (>=0.8.3), bx-python(>=0.5.0), numpy(>=1.8.2), and scipy(>=0.15.1)libraries
  • R with the RColorBrewer and ggplot2 (>2.2.1) packages
  • g++ compiler
  • samtools (>1.1)
  • Unix sort (which support -V option) is required ! For Mac OS user, please install the GNU core utilities !
  1. HiC-Pro的安装
    不在conda中的软件代码
$ pip install https://bitbucket.org/mirnylab/mirnylib/get/tip.tar.gz
$ pip install https://bitbucket.org/mirnylab/hiclib/get/tip.tar.gz 
# hicpro的安装
$ cd ~/biosoft/hicpro
$ cd ~/biosoft/hicpro
$ git clone https://github.com/nservant/HiC-Pro.git
$ cd HiC-Pro
# 这里要改写配置文件(见下)
$ cat config-install.txt
$ mkdir ~/biosoft/hicpro/bin
$ make configure
$ make install
### 最后安装的时候可能会出现Directory does not exit!,这可能是程序默认在home目录下有bin这个文件夹导致,新建bin文件夹即可。最后 绝对路径/HiC-Pro -h跳出说明即安装成功。

SYSTEM CONFIGURATION

PREFIX Path to installation folder
BOWTIE2_PATH Full path the bowtie2 installation directory
SAMTOOLS_PATH Full path to the samtools installation directory
R_PATH Full path to the R installation directory
PYTHON_PATH Full path to the python installation directory (>2.7 - python3 not supported)
CLUSTER_SYS Scheduler to use for cluster submission. Must be TORQUE, SGE, SLURM or LSF

运行

  1. 首先需要获得消化片段的BED文件及chromosomes' size表格文件,这里需要限制酶酶切位点及参考基因组信息。根据测试数据来源及digest_genome.py
$ /PATH/HiC-Pro-master/bin/utils/digest_genome.py -r hindiii -o Refgenome.fasta
# BED文件格式(-1)
chr1   0       16007   HIC_chr1_1    0   +
# chromosomes' size(-1)
chr1    249250621
HiC-Pro --help
usage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]
Use option -h|--help for more information

HiC-Pro 2.10.0
---------------
OPTIONS

 -i|--input INPUT : input data folder; Must contains a folder per sample with input files
 -o|--output OUTPUT : output folder
 -c|--conf CONFIG : configuration file for Hi-C processing
 [-p|--parallel] : if specified run HiC-Pro on a cluster
 [-s|--step ANALYSIS_STEP] : run only a subset of the HiC-Pro workflow; if not specified the complete workflow is run
    mapping: perform reads alignment
    proc_hic: perform Hi-C filtering
    quality_checks: run Hi-C quality control plots
    build_contact_maps: build raw inter/intrachromosomal contact maps
    ice_norm: run ICE normalization on contact maps
 [-h|--help]: help
 [-v|--version]: version
  1. 根据说明文档,将 configuration file 'config-hicpro.txt' 复制到你的当前目录,并修改;本次测试数据来源于来自于Tung B. K. Le et al. Science 2013 :https://www.ncbi.nlm.nih.gov/sra/?term=srr824846,rawdata文件并不用编排,但是由于程序读写要求,因此需要将数据放入独立的文件夹中。

Put all input files in a rawdata folder. The input files have to be organized with one folder per sample, with ;

$ mkdir -p ~/data/project/hic/fq/s1/
$ cd ~/data/project/hic/fq/s1/
858M Jul  3 16:21 SRR824846_Q20L10_1.fastq.gz
857M Jul  3 16:22 SRR824846_Q20L10_2.fastq.gz
# 多个输入文件
+ PATH_TO_MY_DATA
  + sample1
    ++ file1_R1.fastq.gz
    ++ file1_R2.fastq.gz
    ++ ...
  + sample2
    ++ file1_R1.fastq.gz
    ++ file1_R2.fastq.gz
  *...
  1. 运行命令如下,jimmy在推文中运用了一系列技巧,可以详细查看学习。
# 配置文件主要修改内容
BOWTIE2_IDX_PATH = # bowtie2建立的索引所在的路径,记住绝对路径
REFERENCE_GENOME = # bowtie2建立的索引
GENOME_SIZE = # 一个文件记录着参考基因组中每条序列的大小
GENOME_FRAGMENT = 消化片段的BED文件所在的路径
LIGATION_SITE = #连接位点
# 若单个测序数据则
PAIR1_EXT = SRR824846_Q20L10_1
PAIR2_EXT = SRR824846_Q20L10_2
$ MY_INSTALL_PATH/bin/HiC-Pro -i FULL_PATH_TO_DATA_FOLDER -o FULL_PATH_TO_OUTPUTS -c MY_LOCAL_CONFIG_FILE
$ cd out
$ qsub HiCPro_step1_.sh
$ qsub HiCPro_step2_.sh

这里记录一个问题,qsub命令报错,目前使用sh命令执行shell脚本。

$ qsub HiCPro_step1_.sh -p 20 

Unable to initialize environment because of error: cell directory "/opt/gridengine/default" doesn't exist
Exiting.

待结果出来以后,将进一步学习。

相关链接地址:
HiC-Pro_github
HiC-Pro: An optimized and flexible pipeline for Hi-C processing

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,378评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,356评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,702评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,259评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,263评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,036评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,349评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,979评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,469评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,938评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,059评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,703评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,257评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,262评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,501评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,792评论 2 345

推荐阅读更多精彩内容

  • Read the Standards Building on the best of existing state...
    静_静_阅读 425评论 0 0
  • 2016年全球葡萄酒产量20年最低 今年10月底,国际葡萄酒与葡萄酒组织(OIV)在报告中指出,2016年全球葡萄...
    酒庄惠小九阅读 198评论 0 0
  • 星期五 晴 张荣轩妈妈 放学路上,你拿着一只笔向我炫耀,说好朋友送给你的,然后你问我:妈妈,我是不是也应该送...
    爱意暖人心阅读 170评论 0 4