基因家族分析(1)数据准备及软件安装

基因组数据的准备

进行全基因水平的基因家族鉴定之前,需要准备好一套基因组数据,基因组数据可以从公共数据库下载,也可以根据基因组文献提供的地址到指定网站进行下载。一套完整的数据至少包括如下内容:

  1. 基因组序列文件,fasta 格式
  2. 基因结构注释文件,gff3 格式
  3. 所有蛋白质序列文件,fasta 格式
  4. 所有 cds 序列文件,fasta 格式
    由于不同基因组数据库存储的数据格式及命名有各自规范,很多数据下载后不能直接用来做基因家族分析,需要提前处理好,处理原则如下:
    1.去除所有可变剪切,一个编码基因保留一个转录本
    2.去除 gff3 文件中非编码基因及重复序列等信息下面介绍 JGI、Ensembl 和 NCBI 下载的数据的处理

JGI/phytozome 数据处理

phytozome 是一个收录植物基因组数据的网站,数据整理比较规范,已经提供了去除可变剪切的 cds 和 protein 序列文件。只有 gff3 文件需要过滤处理。



示例数据为拟南芥数据,下载于phytozome13

Athaliana_167_TAIR10.cds_primaryTranscriptOnly.fa #cds序列
Athaliana_167_TAIR10.gene_exons.gff3 #基因结构文件
Athaliana_167_TAIR10.protein_primaryTranscriptOnly.fa #蛋白文件
Athaliana_167_TAIR9.fa #基因组文件

## 提取最长转录本基因ID
awk '$1 ~ /^>/ {print $1}' Athaliana_167_TAIR10.cds_primaryTranscriptOnly.fa |   sed 's/^>//' > Ath_mRNA.id

## gff3文件相对于cds和蛋白序列文件,ID部分多了.TAIR10的字符串需要去除掉
sed 's/\.TAIR10//g' Athaliana_167_TAIR10.gene_exons.gff3 > Ath_1.gff3

## 基于mRNA id对gff3文件进行过滤
perl gff_filter_bymRNAID.pl   Ath_1.gff3    Ath_mRNA.id   geneID_mrnaID.table   Ath_final.gff3

## 重命名蛋白序列和cds序列文件及基因组名称,方便后续使用
mv Athaliana_167_TAIR10.cds_primaryTranscriptOnly.fa   Ath.cds.fa
mv Athaliana_167_TAIR10.protein_primaryTranscriptOnly.fa  Ath.pep.fa
mv Athaliana_167_TAIR9.fa Ath.genome.fa

Ensembl 数据处理

Ensembl 数据库可以下载动物、植物、真菌、细菌等物种基因组数据。数据格式规范,mRNA ID 和 cds ID 基本一致,但没有去除可变剪切的版本,需要自己进行手动处理


示例数据为拟南芥数据,下载自 ensembl.

Arabidopsis_thaliana.TAIR10.47.gff3 # 基因结构文件  
Arabidopsis_thaliana.TAIR10.dna.toplevel.fa # 基因组序列文件 
Arabidopsis_thaliana.TAIR10.cds.all.fa # cds序列文件
Arabidopsis_thaliana.TAIR10.pep.all.fa # 蛋白序列文件

# 去除gff3文件中ID部分多余字符
cp Arabidopsis_thaliana.TAIR10.47.gff3  Ath.gff3.tmp #复制一份
sed -i 's/=gene:/=/g' Ath.gff3.tmp
sed -i 's/=transcript:/=/g'  Ath.gff3.tmp
sed -i 's/=CDS:/=/g'  Ath.gff3.tmp

# 基于gff3提取最长cds序列ID,并过滤gff3文件

perl gff_filter_longest.pl    Ath.gff3.tmp   Ath_gene_mrna_cds.ids  Ath_final.gff3

# 提取最长cds ID列表
awk '{print $3}' Ath_gene_mrna_cds.ids > Ath_mRNA.id

##基于最长cds ID信息提取cds和蛋白质序列文件
seqtk subseq Arabidopsis_thaliana.TAIR10.cds.all.fa Ath_mRNA.id  >  Ath.cds.fasta

seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa Ath_mRNA.id  >  Ath.pep.fasta

# 基因组文件重命名
mv Arabidopsis_thaliana.TAIR10.dna.toplevel.fa Ath.genome.fasta

NCBI及其它数据库的处理有需要的请私信我

没有cds和蛋白序列的情况

如果没有 cds 和蛋白序列,可以基于 gff 和基因组序列文件使用 gffread进行提取.

gffread Ath_final.gff3 -g Ath.genome.fasta -x Ath.cds.fasta #提取cds序列
gffread Ath_final.gff3 -g Ath.genome.fasta -y Ath.pep.fasta #提取蛋白序列

软件安装

conda安装

用conda安装比对、结构域预测、motif鉴定、进化树构建、多序列比对结果过滤、fasta序列处理工具等等
blast
hmmer
meme
fasttree
trimal
seqkit
gffread
McscanX
JCVI

R包的安装

Peptides #蛋白质等电点和分子量的统计
seqlogo #绘制seqlogo图
pheatmap #绘制热图
msa #多序列比对的R包

windows软件

染色体核型图mapchart
进化树构建 mega

在线软件

进化树美化 https://itol.embl.de/
motif 预测meme MEME - Submission form (meme-suite.org)
基因结构绘制 Gene Structure Display Server 2.0 (gao-lab.org)
顺式作用元件预测 PlantCARE, a database of plant promoters and their cis-acting regulatory elements (ugent.be)

欢迎关注Bioinfor 生信云微信公众号!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容