今天的学习主要包括两个部分;
- 截图的表示 conda 安装过程,
- conda 没有的用官网下载;
1,先加载 conda RNA 环境
2,sratoolkit ,conda 没有找到;
3,blat conda install -y blat
4,fastqc
5,multiqc
7,trim-galore (安装的时候需要中划线,)
比对软件
8.0 star conda install -y star
8,hisat2
9,bowtie2
强大的比对工具:https://blog.csdn.net/soyabean555999/article/details/62235577
10,tophat
TopHat是基于Bowtie的将RNA-Seq数据mapping到参考基因组上,从而鉴定可变剪切(exon-exon splice junctions)。
11,bwa
conda install -y bwa
12,subread
13,samtools
14,bcftools
15,GATK
GATK 是 Genome Analysis ToolKit 的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling 软件之一。
- 查找变异的基因
17, Platypus --conda 里边没有,
http://www.biotrainee.com/thread-894-1-1.html
18,varScan
19,LoFreq
20,FreeBayes
21,SNVer
22,SAMtools
23,VarDict
24,cnvkit 报错
ImportError: Missing required dependencies ['numpy']
25,sequenza ,conda 库里边没有
计数软件
26,featureCounts
conda 库里边没有
27, htseq
28,bedtools
29, deeptools
30,salmon
- 外边安装:
- sequenza
搜索了一下发现 sequence 是一个R 包; - Platypus
这个需要注册的,暂时不考虑下载,考虑用同功能的替代软件;
- sequenza
Platypus reads data from BAM files, and outputs a single VCF file containing a list of identified variants, and genotype calls and likelihoods for all samples. It can identify SNPs, MNPs and short (less than one read length) indels, and larger (up to several kb deletions and maybe 200bp insertions) variants using local assembly. Platypus can process large amounts of BAM data very efficiently, and can handle samples spread across multiple BAM files. Duplicate read marking, local re-alignment, and variant identification and filtering are performed on-the-fly using a single command. Platypus will run on any input data in BAM format, but has only been properly tested on Illumina data.
sratoolkit
是一个编译的二进制 文档;没有找到安装教程;
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz;
2018.12.12 作业要求:需要fastqc及multiqc,trim-galore 或者很多其它软件 trimmomatic, cutadapt**
比对的软件:star, hisat2,bowtie2,tophat,bwa,subread
中间软件,samtools,bcftools,GATK
包括找变异的:GATK, Platypus, VarScan, LoFreq,FreeBayes, SNVer, SAMtools, VarDict,cnvkit,sequenza
计数软件也很多:featureCounts,htseq, bedtools ,deeptools, salmon
资料总结:
blastp:蛋白序列与蛋白库作比对,直接比对蛋白序列的同源性。
blastx:核酸序列与蛋白库作比对,将核酸序列先翻译成蛋白序列,再将其与蛋白库作比对。
blastn:核酸序列与核酸库的比对,直接比对核酸序列的同源性。
tblastn:蛋白序列对核算库的比对,现将核酸库翻译成蛋白库,再将蛋白序列与翻译后的蛋白库进行比对。
tblastx:核酸与核酸数据库在蛋白质水平比较