宏基因组 - (1)基因预测与基因相对丰度的计算

-3.仅作笔记使用

我所用到的所有脚本可以+Q 840842906索

简单介绍一下方向也可以,说不定以后能互相帮忙~

注明来意,请实名  学校+名字

-2.两组样品,目的是通过宏基因组找到两组间的差异以及差异的成因

-1.原理

0. Megahit/SPAdes组装

1.基因预测

1.1 软件安装 - metagenemark/prodigal

参考:https://www.jianshu.com/p/b8d0cd39bb67    ---  genemark

          http://wap.sciencenet.cn/blog-2379401-1085480.html      ---    https://github.com/hyattpd/Prodigal

1.2

genemark参考:https://www.sohu.com/a/207036304_99908466

for i in {B2A,B3A......}          (下面会省略,$i的意思即中括号内的内容)

do

prodigal -a $i/$i.pro.fa -d $i/$i.gene.fa -f gff -g 11 -i $i/$i.fasta -p meta -s $i/$i.stat_Potential.gene -m -q

done

-i是输入文件即组装好的contig,这里不同的文章会过滤掉不同长度的contig,过滤掉不同长度的预测结果的CDS,可以自行查阅文献

我这里以两篇学位论文为例:  (当然我没有混组装,我是每个样本组装一次,预测一次, 然后把所有样本的预测结果cat到一起

[1]和凤平. 东北虎肠道微生物的宏基因组学研究[D].东北林业大学,2019.DOI:10.27009/d.cnki.gdblu.2019.000031.
[1]林红梅. 西北太平洋表层浮游微生物群落的宏基因组学研究[D].山东大学,2020.DOI:10.27272/d.cnki.gshdu.2020.003334.


1.3 然后需要给预测的基因重命名,过滤长度

java -ea -Xmx34677m -Xms34677m -cp /data/01/user164/software/bbmap/current/ jgi.RenameReads in=test.fa out=out.fa ow=t prefix=X minscaf=100 ignorejunk

prefix=$i.gene就是把基因重命名为 B2A.gene.1  B2A.gene.2 

minscaf=100即过滤掉长度小于100      in=即输入文件  out=即输出文件

1.4  把所有样品,重命名/长度过滤后的gene.fa  cat到一起


2.CD-Hit去冗余

cd-hit -i input.fa -o out.fa -c 0.95 -d 0 -aL 0.9 -uL 0.05 -aS 0.9 -T 80 -M 15000

用了-T 80,上了学校的超算, 一下午完事;;之前用的-T 14,在集群上很慢要一个周

参数的解释https://www.sohu.com/a/207036304_99908466, 个人感觉参数可以跟着上面照抄


3.相对丰度的计算和长度标准化

3.1 ref : https://www.jianshu.com/p/a28c1729168e?ivk_sa=1024320u  这个链接里面相对丰度的计算是用的SOAP,但是我没有找到SOAP相关的任何信息,所以用的bwa mem,包括还有Salmon、bowtie2+bbmap也可以做相同的东西

bwa mem -p 去完冗余的结果 样品1.1.fq.gz 样品1.2.fq.gz > 样品1.sam

得到 每个基因在样品1上的比对情况

3.2

grep -v ^@ $i.aln.sam | cut -f 3 | sort | uniq-c | awk ‘BEGIN{ FS=“ ”;OFS=“,” }{print $2,$1}’ | awk ‘BEGIN{ FS=“,”;OFS=“,”}{ if ($2 > 2) print $1,$2;else print $1,“0”}’ > $i.count.csv    #获取到每个gene比对到的reads数量,比对数小于等于2的直接标0, 接着进行长度标准化

最后结果长这样,第二列就是比对上的reads数


3.3 ref : https://www.jianshu.com/p/a28c1729168e?ivk_sa=1024320u  这个链接里面相对丰度的计算是用的SOAP,但是我没有找到SOAP相关的任何信息,所以用的bwa mem

参考自12年的Nature:qin2012,doi:10.1038/nature11450

然后还需要获取非冗余基因集(即CDHIT的结果)每个gene的长度:

bioawk -c fastx ‘{print $name, length($seq)}‘ 去冗余的结果 | tr “\t” “,” > gene.length.csv      第一列是基因名/序列名,第二列是该序列长度



然后获取gene.count.csv中每个gene的长度

大体上就是用gene.count.csv的第一列和gene.length,csv的第一列匹配,匹配得上,就输出gene.count.csv的每一列(基因名,count)和gene.length,csv的第二列(基因长度)

如果匹配不上,就输出gene.count.csv的第一列, 该基因的count为0,长度

python jiyinfengdu.py $i.count.csv $i > $i.tmp

大体上就是得到这么一个文件,这些基因在一个样本上比对上的reads数和该基因的长度

现在再根据上面那个标准化的公式来算就很简单了,很多方法都能实现


第一列是基因名,第二列这个基因在这个样品中的相对丰度




3.4:再将每个样本的数据合到一块即可

paste B2A.tmp B3A.tmp B4A.tmp > end.tsv

end.tsv


后续就可以进行可视化、功能注释等

待续







用到的脚本

jiyinfengdu.py




2022.4更新

关于基因相对丰度的计算,又发现了一些其他的方法 (宏基因组的定量还没有一个很好很权威的方法

本文所用方法已经是12年的了(虽然才看到几篇文章还在用)

1.MOCAT2  (16年发在Bioinformatics)

好就好在方便很多,组装预测丰度一条龙全包了

2.Wen, C., Zheng, Z., Shao, T., Liu, L., Xie, Z., Le Chatelier, E., ... & Li, H. (2017). Quantitative metagenomics reveals unique gut microbiome biomarkers in ankylosing spondylitis. Genome biology

这篇发的好一点,也给出了一个方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容