生信常用工具集合

Bioinformatics资源推荐
生物信息学是一个跨学科领域,主要目标开发用于理解生物数据的方法和软件工具。https://en.wikipedia.org/wiki/Bioinformatics;由于测序技术的革新,生物信息学蓬勃发展,产生了大量有价值的工具和数据分析方法,我们从其中精选了部分生物信息学软件、学习资源和库分享给大家。

常用数据处理工具
命令行工具
Bioinformatics One Liners
生物信息学的常用的单行bash程序集合
https://github.com/stephenturner/oneliners

BioNode
https://www.bionode.io/
Bionode为生物信息学分析工作流程提供可管理的UNIX命令行工具和JavaScript API

bioSyntax
http://www.bioSyntax.org
语法高亮显示插件,用于常见计算生物学文件格式(SAM,VCF,GTF,FASTA,PDB等),包含vim/less/gedit/sublime等编辑器

CSVKit
https://github.com/wireservice/csvkit
用于处理CSV /制表符分隔文件的实用程序

csvtk
https://github.com/shenwei356/csvtk
另一个跨平台,高效,实用且漂亮的CSV / TSV工具包

datamash
http://www.gnu.org/software/datamash/
数据转换和统计

easy_qsub
https://github.com/shenwei356/easy_qsub
轻松提交PBS作业。通过使用脚本模板,支持多个输入文件

GNU parallel
http://www.gnu.org/software/parallel/
在单个多核计算机上并行运行作业的通用并行程序
https://www.biostars.org/p/63816/是一些使用GNU Parallel的示例脚本。

grabix
https://github.com/arq5x/grabix
用于随机访问BGZF文件的小工具

tabix
https://github.com/samtools/tabix
表文件索引工具

wormtable
https://github.com/wormtable/wormtable
Wormtable是大规模数据集的一次写入多次读取表。 它为Python程序员提供了一种简单有效的方法来存储,处理和搜索基本上无限大小的数据集。

zindex
https://github.com/mattgodbolt/zindex
用于在压缩文本文件上创建索引的工具

二代测序相关
Pipelines/Pipeline框架
Pipeline工具或者框架推荐列表
https://github.com/pditommaso/awesome-pipeline
Pipeline工具或者框架推荐列表

bcbio-nextgen
https://github.com/chapmanb/bcbio-nextgen
提供用于变异和RNA-Seq分析、结构变异Calling,注释和预测的基因组分析Pipeline。

BigDataScript
https://pcingola.github.io/BigDataScript/
一种跨系统脚本语言,用于处理不同大小和功能的计算机系统中的大数据分析Piepeline。

Bpipe
http://docs.bpipe.org
一种用于定义Pipeline不同阶段并将它们链接在一起以形成完整Pipeline的小型描述语言。

Common Workflow Language
http://www.commonwl.org/
用于描述分析工作流程和工具的规范,这些工作流程和工具可在各种软件和硬件环境(从工作站到集群,云和高性能计算(HPC)环境)中移植和扩展。

Cromwell
https://github.com/broadinstitute/cromwell
面向科学工作流程的工作流管理系统。

GATK Queue
https://gatkforums.broadinstitute.org/gatk/discussion/1288/howto-run-queue-for-the-first-time
一个Pipeline系统,可与GATK以及其他高通量序列分析软件协同工作。

Nextflow
https://www.nextflow.io
一个流畅的DSL模仿UNIX管道概念,简化了以可移植的方式编写并行和可扩展的Pipeline。

Ruffus
http://www.ruffus.org.uk
Computation Pipeline library for python widely used in science and bioinformatics.

SeqWare
https://seqware.github.io/
基于Hadoop Oozie的工作流系统,专注于云环境中的基因组数据分析。

Snakemake
https://bitbucket.org/snakemake/snakemake/wiki/Home
Python中的工作流管理系统,旨在通过提供快速,舒适的执行环境来降低创建工作流的复杂性。

Workflow Descriptor Language
https://github.com/broadinstitute/wdl
Broad开发的工作流标准

序列处理相关工具
序列处理包括诸如原始数据读取和修剪低质量碱基之类的任务。

AfterQC
https://github.com/OpenGene/AfterQC
fastq数据的自动过滤,修整,错误删除和质量控制

FastQC
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
用于高通量序列数据的质量控制工具。

Fastqp
https://github.com/mdshw5/fastqp
FASTQ and SAM质量控制工具

Fastx Tookit
http://hannonlab.cshl.edu/fastx_toolkit/
FASTQ/A短读长预处理工具: 包含Demultiplexing, trimming, clipping, quality filtering, and masking等常用功能

MultiQC
http://multiqc.info/
将多个样本的生物信息学分析的结果汇总到单份报告中。

SeqKit
https://github.com/shenwei356/seqkit
olang中用于FASTA/Q文件操作的工具包,具备跨平台和速度快等优点

seqmagick
http://seqmagick.readthedocs.io/en/latest/
Biopython中方便快捷的文件格式转换工具

Seqtk
https://github.com/lh3/seqtk
用于处理FASTA / Q格式序列的工具包。

序列比对
Bowtie 2
https://github.com/BenLangmead/bowtie2
一种超快速且记忆效率高的工具,用于将测序读数与长参考序列对齐。

BWA
https://github.com/lh3/bwa
用于DNA序列之间成对比对的Burrow-Wheeler Aligner

Variant Calling
freebayes
https://github.com/ekg/freebayes
基于贝叶斯单倍型的多态性发现和基因分型工具

GATK
https://software.broadinstitute.org/gatk/
可从高通量测序数据中的分析挖掘变异位点

samtools/bcftools/htslib
https://github.com/samtools/samtools
一套用于处理下一代测序数据的工具集

BAM文件处理工具
Bamtools
https://github.com/pezmaster31/bamtools
用于处理BAM文件的工具集

bam toolbox
https://github.com/AndersenLab/bam-toolbox
MtDNA:核覆盖; BAM工具箱可输出MtDNA:核覆盖率,代表线粒体含量。

mergesam
https://github.com/DarwinAwardWinner/mergesam
自动执行常见的SAM和BAM转换

SAMstat
https://github.com/TimoLassmann/samstat
展示二代测序的序列统计数据。

Telseq
https://github.com/zd1/telseq
Telseq是一种从全基因组序列数据中估计端粒长度的工具

VCF文件处理工具
bcftools
https://github.com/samtools/bcftools
用于操作VCF文件的工具集

vcfanno
https://github.com/brentp/vcfanno
使用其他VCF / BED / tabixed文件注释VCF

vcflib
https://github.com/vcflib/vcflib
用于解析和操作VCF文件的C++库

vcftools
https://github.com/vcftools/vcftools
VCF操作和统计(例如连锁不平衡,等位基因频率,Fst)

GFF BED文件处理工具
gffutils
https://github.com/daler/gffutils
GFF和GTF文件操作和相互转换

BEDOPS
https://bedops.readthedocs.io/en/latest/index.html
快速,高度可扩展且易于并行化的基因组分析工具包

Bedtools2
https://github.com/arq5x/bedtools2
用于基因组算术的瑞士军刀

变异位点模拟
Bam Surgeon
https://github.com/adamewing/bamsurgeon
用于向现有.bam文件添加突变的工具,用于测试突变分析的caller

wgsim
https://github.com/lh3/wgsim
Reads模拟器.

变异位点过滤与质量控制
变异位点预测与注释
SIFT
http://sift.jcvi.org/
预测氨基酸取代是否影响蛋白质功能的工具

SnpEff
https://github.com/pcingola/SnpEff
遗传变异注释和效果预测工具箱

Python模块
数据模块
cruzdb
https://github.com/brentp/cruzdb
可用Pythonic的方式访问UCSC基因组数据库

pyensembl
https://github.com/openvax/pyensembl
可用Pythonic的方式访问Ensembl数据库

bioservices
https://github.com/cokelaer/bioservices
通过Python访问Biological Web Services

工具模块
cyvcf
https://github.com/arq5x/cyvcf
A port of pyVCF (https://github.com/jamescasbon/PyVCF) using Cython for speed.

cyvcf2
https://github.com/brentp/cyvcf2
Cython + HTSlib == 快速VCF文件解析器; 相比pyVCF速度更快.

pyBedTools
https://github.com/daler/pybedtools
bedtools工具的Python封装版[bedtools https://github.com/arq5x/bedtools).

pyfaidx
https://github.com/mdshw5/pyfaidx
通过Pythonic的方式访问FASTA文件.

pysam
https://github.com/pysam-developers/pysam
samtools工具的Python封装版 [samtools https://github.com/samtools/samtools).

pyVCF
https://github.com/jamescasbon/PyVCF
用于Python的VCF解析器

可视化
Genome Browsers / Gene Diagrams
以下工具可用于可视化基因组数据或构建基因组数据的定制可视化,包括来自DNA-Seq,RNA-Seq和ChIP-Seq,变异等的序列数据

biodalliance
http://www.biodalliance.org/
嵌入的基因组查看器。 集成来自各种来源的数据,可以直接从流行的基因组学文件格式加载数据,包括bigWig,BAM和VCF

BioJS
https://biojs.net/
BioJS是一个包含数百种JavaScript组件的库,使您能够使用当前的Web技术可视化和处理数据

Circleator
https://github.com/jonathancrabtree/Circleator
使用BioPerl和SVG灵活地对基因组相关数据进行循环可视化

DNAism
https://github.com/drio/dnaism
Horizon chart基于D3的DNA数据库JavaScript库.

IGV js
https://www.broadinstitute.org/igv
基于Java的浏览器。用于基因组学数据和注释的快速,高效,可扩展的可视化工具。支持各种格式详见:http://software.broadinstitute.org/software/igv/fileformats

Island Plot
https://github.com/lairdm/islandplot
基于D3 JavaScript库的基因组查看器

JBrowse
https://jbrowse.org
JavaScript基因组浏览器,可通过插件和跟踪自定义进行高度自定义

PHAT
https://github.com/chgibb/PHAT
点击式跨平台套件,用于分析和可视化二代测序数据集

pileup.js
https://github.com/hammerlab/pileup.js
JavaScript库,可用于生成交互式和高度可定制的基于Web的基因组浏览器

scribl
https://github.com/chmille4/Scribl
用于绘制基于画布的基因图的JavaScript库. http://chmille4.github.io/Scribl/可查看更多示例

Circos相关
Circos
http://circos.ca/
用于圆形图的Perl包,非常适合基因组重排。

ClicO FS
https://academic.oup.com/bioinformatics/article/31/22/3685/241292
基于Web的用于Circos的交互式服务。

OmicCircos
http://www.bioconductor.org/packages/release/bioc/html/OmicCircos.html
用于绘制组学数据的圆形图的R包

J-Circos
http://www.australianprostatecentre.org/research/software/jcircos
用于与circos图进行交互式工作的Java应用程序

rCircos
https://cran.r-project.org/web/packages/RCircos/index.html
用于绘制圆形图的R包

数据库访问
Entrez Direct: E-utilities on the UNIX command line
http://www.ncbi.nlm.nih.gov/books/NBK179288/
以编程方式访问NCBI的数据库的UNIX命令行工具。可在链接中找到安装说明和示例。

转载:智汇医圈

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341