读文章重复结果系列第二篇,依旧和叶绿体基因组相关 RNA editing sites prediction
题目 Identification and analysis of RNA editing sites in the chloroplast transcripts of Aegilops tauschii L
期刊 genes IF 3.600 生物3区 出版国家 Switzerland(瑞士)
文章中材料和方法包含五部分内容
1、利用 http://prep.unl.edu/cgi-bin/cp-input.pl 在线程序预测 Aegilops tauschii 叶绿体基因组76个蛋白编码基因的RNA编辑位点
2、利用转录组数据检测RNA编辑位点
3、RNA编辑前后的蛋白质结构比较
4、禾本科植物之间叶绿体基因RNA编辑的比较
5、PCR验证
本次主要重复第一项内容,其中主要包括1、利用grep命令和excel提取蛋白编码基因的基因名称(试了一下用grep命令结合cut命令也可以达到同样的效果,而且相对简单一点);2、根据上一步提取的蛋白编码基因名称利用python脚本从At叶绿体基因组genbank文件中提取蛋白编码基因的CDS序列;3、因为叶绿体基因组典型的四部分结构(1个大的单拷贝区LSC,1个小的单拷贝区SSC,2个反向重复区IRS)上一步提取的CDS序列包含重复的基因,利用python脚本去除fasta文件中名称重复的序列;4、利用python 脚本将输入文件处理成http://prep.unl.edu/cgi-bin/cp-input.pl 在线程序所需要的格式。
1.1根据文章中提供的序列号KJ614412.1直接在NCBI网站检索,然后分别下载genbank和gff3格式文件
1.2使用grep和cut命令组合提取蛋白编码基因的ID
grep 提取文件中包含有 protein_coding 字段的行,竖线 | 是把前一步的结果输出给后面的命令, cut 命令提取列 -d 参数指定分号分隔符, -f 指定提取第二列,接下来cut -d 指定等号为分隔符 -f提取第二列, 大于号> 重定向符号将结果输出到文件中,然后利用excel删除重复行(uniq命令也能实现删除重复行,但是自己试了一下和excel的输出结果不一致,暂时还没有发现问题在哪里)最终得到76个蛋白编码基因的id。
1.3利用python脚本从genbank文件中提取蛋白编码基因的CDS序列(python脚本来源于组学讲堂一期微信推送)用到python2。用法
需要将genbank文件与脚本放到同一个文件夹 -i参数指定蛋白编码基因id文件 -o指定输出文件夹(文件夹得存在)
结果输出四个文件,我们用到的是sequence.gb.cds.fa,用grep命令查看一下序列的条数,有82条,里面包含一些重复
然后用简单的python脚本去除id重复的序列
1.4使用python脚本处理fasta文件为http://prep.unl.edu/cgi-bin/cp-input.pl在线程序所需要的格式
然后直接将结果文件上传即可,最终结果与原文一致
in total, 34 editing sites present in 15 chloroplast protein-coding genes were predicted by the PREP-cp program
PS:下一步结合转录组数据预测RNA编辑位点需要仔细看一下啦!!!!