365篇了,刚好凑齐一年之数。。话说我这个IP属地怎么变来变去的。。
HiCUP是一个处理由Hi-C和捕获Hi-C(Capture Hi-C,CHi-C)产生的测序数据的流程,它们是用于研究三维基因组组织的技术。流程比对数据到一个指定参考基因组,并去除可能阻碍随后分析的假象。HiCUP也产生一个易于解释,但详细的质控(quality control,QC)报告。
HiCUP由6个Perl脚本组成,分别如下:
- (1) HiCUP Digester:确定reference上的酶切位点
- (2) HiCUP:为主程序,依次执行以下步骤
- (3) HiCUP Truncater:在reads上寻找酶切位点,并将reads切开
- (4) HiCUP Mapper:将reads比对到参考基因组上,如果输入的是PEreads,则R1和R2分开单独比对到reference上。比对内部调用bowtie或bowtie2比对。这一步会利用到事先建好的bowtie2 index
- (5) HiCUP Filter:结合HiCUP Digester生成的酶切位点文件,过滤掉常见的Hi-C artefacts,例如Dangling Ends等
- (6) HiCUP Deduplicator:移除(仅保留一处最佳比对) PCR重复
HiCUP的使用
HiCUP 0.8.0
mamba install -y hicup
需要下载bowtie index和fasta文件
先采用bowtie2-build对reference建立索引
bowtie-build 1.fa,2.fa,...,MT.fa Human_GRCh37
bowtie2-build 1.fa,2.fa,...,MT.fa Human_GRCh37
采用hicup目录下的hicup_digester在reference上寻找酶切位点,生成酶切信息文件
hicup_digester --genome Human_GRCh37 --re1 A^AGCTT,HindIII *.fa
配置好后再采用hicup进行分析
有两种方式运行hicup,其一是将所有参数写到config文件中,可以先运行
hicup --example
## 修改后的配置改为hicup_run1.conf
hicup --config hicup_run1.conf
生成样例config文件,修改其中的参数,并运行
或者直接用命令行运行,如下:
hicup --bowtie2 /path/to/bowtie2 --digest Digest_reference_HindIII_None_-2022.txt --format Sanger --index /path/to/reference/index --keep --outdir /path/to/output/dir --threads 40 /path/to/reads*.fastq.gz
结果解读
最重要的两个文件是:
xx_R1_2.hicup.bam
xx_ R1_2.HiCUP_summary_report.html
前者是最终的bam文件,后者是全程汇总报告
视频
Interpreting HiCUP Summary Reports - YouTube
文档
Babraham Bioinformatics - HiCUP Hi-C Analysis Pipeline
HiCUP Overview — HiCUP 0.8 documentation (babraham.ac.uk)
科学网—HiCUP的使用以及结果解读 - 卢锐的博文 (sciencenet.cn)
https://www.jianshu.com/p/7f8f74ad6f63