菜鸟自学04:运行HiC-Pro软件的tips

把之前写在CSDN的博文搬运了过来,集中记录自己的学习过程。
emmmm这篇其实没写完,很长时间没碰又给忘了,不管了。。


Hic-Pro的安装

折腾了一段时间,终于把hicpro软件安装好了,走了弯路,回过头才发现别人的教程已经写的非常正确且清晰了…
说说hic-pro,hic-pro的作用是把测序文件输出为标准互作图谱。
hic-pro的安装有两点麻烦,一是依赖的软件较多,需要参考 https://github.com/nservant/HiC-Pro 官方说明书一一解决;二是要修改配置文件**config-install.txt **

来自生信技能树

1.prefix参数的作用是指定软件安装的位使得在日后使用中维护起来更方便。源码安装包括三个步骤:configure(配置)、make(编译)、make install(安装)。
2.创建虚拟环境的好处就是避免了不同版本程序之间的冲突,再说不用的时候直接删除环境就行了,不用为之前安装的软件杂乱而不知所措。
3.配置时为什么不直接指定到hicpro下,而是再创建一个bin文件夹呢?


Hic-Pro的运行

运行hic-pro的关键是修改该软件的配置文件config-hicpro.txt。可以先查看需要修改的参数文件。

cat config-hicpro.txt
#关键的几个参数
BOWTIE2_IDX_PATH =  #就是用bowtie2建立参考基因组的索引所在路径,注意是绝对路径
REFERENCE_GENOME =  #索引名
GENOME_SIZE =  ?
PAIR1_EXT = #双端测序文件1
PAIR2_EXT = #双端测序文件2
GENOME_FRAGMENT =  ?
LIGATION_SITE =  ?

1.GENOME_SIZE =
在建立的索引目录下新建一个txt文件:

cat >chrom_bacteria.sizes  #创建一个新的文件cat > filename,文件名我是参考hicpro的配置示例 
Chromosome 4016942  #在文件中写入内容,表明这个参考基因的大小是4016942bp,1bp即为1个碱基对(base pair)

2.GENOME_FRAGMENT =

#就是HiC消化片段位点文件
mkdir -p ~/data/project/hic/digest
cd ~/data/project/hic/digest
bin=/home/zhuchumeng/local/app/hicpro/bin/HiC-Pro_2.11.0/bin/utils/digest_genome.py  
$bin -r C^CATGG -o bacteria.bed ../ref/ref.fa 
上面两行来源于消化位点文件生成的命令:`/PATH/HiC-Pro-master/bin/utils/digest_genome.py -r hindiii -o Refgenome.fasta`

.py是python运行脚本。
运行完成后在digest目录下出现了bacteria.bed文件。
bed文件关于bed文件

Browser Extensible Data (BED) BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。
必须包含的3列是:
chrom, 染色体或scafflold 的名字(eg chr3, chrY, chr2_random, scaffold0671 )
chromStart 染色体或scaffold的起始位置,染色体第一个碱基的位置是0

chromEnd 染色体或scaffold的结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的数目是0-99

3.LIGATION_SITE = CCATGG
因为该篇论文中使用的限制酶是NcoI,这应该是它的特异识别序列。

source ~/miniconda3/bin/activate
source activate hic    #要运行hicpro程序了,所以要进入hic的虚拟环境
cd ~/data/project/hic/    #进入数据存放的hic目录
cp ~/local/app/hicpro/bin/HiC-Pro_2.11.0/config-hicpro.txt ./   #./表示当前目录hic
vi config-hicpro.txt
bin=/home/urname/local/app/hicpro/bin/HiC-Pro_2.11.0/bin/HiC-Pro   #如果已经添加HiC-Pro的路径到环境变量中,就不需要这一步了
nohup $bin -i fq -o out -c config-hicpro.txt 1> run.log 2>&1 &    #理解是将config文件运行结果输出到运行日志,并将标准输出和标准错误都重定向到运行日志?另外,fq是存放数据的地方,记得单独建文件夹放测试数据fq/s1/,config-hicpro.txt和fq都要放在hic目录下

之后可能会报错,如urname目录下找不到bin文件夹,新建一个就是,纯粹是依赖作用,实际上运行后文件夹里不会产生任何东西。还有就是记得根据实际路径修改config-system.txt文件。


Hic-Pro的使用

主要包括:序列比对;数据过滤;原始互作图谱构建;互作图谱迭代校正。
我的数据运行完后数据过滤出来了,但是matrix的文件夹里没有出现原始和标准化后的矩阵图,可能原因:1)数据跑断了,导致分析不完整;2)相关绘图软件缺失;3)软件设置参数有问题,这个可能性不大,因为只有三个参数嘛。。


去Google网上论坛查看hicpro主题,似乎找到问题根源了。原因正是第三点。

HIC-PRO DOES NOT GENERATE ANY MAPS
HiC-Pro is using the chrom.sizes files to build the map.
Be sure that your chromosome names are the same in all annotations files (bowtie2 indexes, restriction fragments, chromosome sizes, etc.)


hiclib的安装与使用###

PS:可算知道为嘛教程里创建的是python=2.7版本的环境了。

image

详情见:https://mirnylab.bitbucket.io/hiclib/

hiclib主要用于数据标准化,不过hicpro就可以了,为什么还要安装hiclib?
或者是想比较两者分析的结果?
三维基因组常用分析工具汇总

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容

  • 一、HiC-Pro 简介 HiC-Pro是目前比较流行的HiC数据标准化处理工具之一,其流程主要分为6个步骤,比对...
    caokai001阅读 8,954评论 1 13
  • 备注来源: 生信技能树 [生信技能树](javascript:void(0);) 2018-07-30 参考文章 ...
    caokai001阅读 12,388评论 2 1
  • BED (Browser Extensible Data)格式文件就是通过规定行的内容来展示注释信息 BED文件每...
    JeremyL阅读 51,377评论 0 27
  • 第十章 使用序列数据 生物信息学的核心问题之一是处理大量的(通常定义糟糕或模糊)文件格式。久而久之,一些特定的简单...
    yangliunk1987阅读 4,984评论 3 53
  • 学完了理论,开始实践一下吧主要参考了jimmy提供的练习题 一、在主目录下面创建/tmp文件夹,并且使其中包含 1...
    刘小泽阅读 2,746评论 0 12