perl命令行处理sequence数据入门

原始数据(注释信息)

chr01irgsp1_repmRNA298310815.+.ID=Os01t0100100-01;Name=Os01t0100100-01;Locus_id=Os01g0100100;Note=RabGAP/TBCdomaincontainingprotein.;Transcript_evidence=AK242339(DDBJ%2Cantisensetranscript);ORF_evidence=Q655M0(UniProt);GO=MolecularFunction:RabGTPaseactivatoractivity(GO:0005097),CellularComponent:intracellular(GO:0005622),BiologicalProcess:regulationofRabGTPaseactivity(GO:0032313);InterPro=RabGAP/TBC(IPR000195);NIAS_FLcDNA=J075199P03;TENOR=Os01t0100100-01;KEGG=Os01t0100100-01
chr01irgsp1_repmRNA1121812435.+.ID=Os01t0100200-01;Name=Os01t0100200-01;Locus_id=Os01g0100200;Note=Conservedhypotheticalprotein.;Transcript_evidence=AK059894(DDBJ%2CBesthit);ORF_evidence=B8ACR2(UniProt);NIAS_FLcDNA=006-208-E01;Expression=AK059894;TENOR=Os01t0100200-01;KEGG=Os01t0100200-01

命令行中 cut 的用法

less test_ori|cut -f 9     #-f 是取列操作,本次取出第九列
ID=Os01t0100100-01;Name=Os01t0100100-01;Locus_id=Os01g0100100;Note=RabGAP/TBCdomaincontainingprotein.;Transcript_evidence=AK242339(DDBJ%2Cantisensetranscript);ORF_evidence=Q655M0(UniProt);GO=MolecularFunction:RabGTPaseactivatoractivity(GO:0005097),CellularComponent:intracellular(GO:0005622),BiologicalProcess:regulationofRabGTPaseactivity(GO:0032313);InterPro=RabGAP/TBC(IPR000195);NIAS_FLcDNA=J075199P03;TENOR=Os01t0100100-01;KEGG=Os01t0100100-01
ID=Os01t0100200-01;Name=Os01t0100200-01;Locus_id=Os01g0100200;Note=Conservedhypotheticalprotein.;Transcript_evidence=AK059894(DDBJ%2CBesthit);ORF_evidence=B8ACR2(UniProt);NIAS_FLcDNA=006-208-E01;Expression=AK059894;TENOR=Os01t0100200-01;KEGG=Os01t0100200-01
less test_ori|cut -f  9|cut -d ";" -f 1,4,5#若不是\t分割的列,可以用 -d 指定分隔符号
ID=Os01t0100100-01;Note=RabGAP/TBCdomaincontainingprotein.;Transcript_evidence=AK242339(DDBJ%2Cantisensetranscript)
ID=Os01t0100200-01;Note=Conservedhypotheticalprotein.;Transcript_evidence=AK059894(DDBJ%2CBesthit)

命令行中的模式匹配,去除冗余信息

less test_ori|cut -f 9|cut -d ";" -f 1,4,5|perl -npe "s/ID=//g"   #s/需要替换的内容/替换后的内容/g,g 表示全局匹配,对一行匹配多次,都执行该操作
Os01t0100100-01;Note=RabGAP/TBCdomaincontainingprotein.;Transcript_evidence=AK242339(DDBJ%2Cantisensetranscript)
Os01t0100200-01;Note=Conservedhypotheticalprotein.;Transcript_evidence=AK059894(DDBJ%2CBesthit)
less test_ori|cut -f 9|cut -d ";" -f 1,4,5|perl -npe "s/ID=//g"|perl -npe "s/Note=//g"|perl -npe "s/Transcript_evidence=//g"  #该操作把标签均替换成空
Os01t0100100-01;RabGAP/TBCdomaincontainingprotein.;AK242339(DDBJ%2Cantisensetranscript)
Os01t0100200-01;Conservedhypotheticalprotein.;AK059894(DDBJ%2CBesthit)
less test_ori|cut -f 9|cut -d ";" -f 1,4,5|perl -npe "s/ID=//g"|perl -npe "s/Note=//g"|perl -npe "s/Transcript_evidence=//g"|perl -npe "s/;/\t/g"  #将文件按\t分割,导出后可用excel显示
Os01t0100100-01 RabGAP/TBCdomaincontainingprotein.  AK242339(DDBJ%2Cantisensetranscript)
Os01t0100200-01 Conservedhypotheticalprotein. AK059894(DDBJ%2CBesthit)

模式匹配进阶

观察添加命令: perl -npe "s/Note=.*?;//g" ,数据发生什么变化

less test_ori|cut -f 9|cut -d ";" -f 1,4-6
ID=Os01t0100100-01;Note=RabGAP/TBCdomaincontainingprotein.;Transcript_evidence=AK242339(DDBJ%2Cantisensetranscript);ORF_evidence=Q655M0(UniProt)
ID=Os01t0100200-01;Note=Conservedhypotheticalprotein.;Transcript_evidence=AK059894(DDBJ%2CBesthit);ORF_evidence=B8ACR2(UniProt)
less test_ori|cut -f 9|cut -d ";" -f 1,4-6|perl-npe"s/Note=.*?;//g"
ID=Os01t0100100-01;Transcript_evidence=AK242339(DDBJ%2Cantisensetranscript);ORF_evidence=Q655M0(UniProt)
ID=Os01t0100200-01;Transcript_evidence=AK059894(DDBJ%2CBesthit);ORF_evidence=B8ACR2(UniProt)
perl -npe "s/Note =.*?;//g"  
 #.* 可以匹配任意字符

#我们想要去除Note所在列的信息,也就是Note=一直到其后第一个;出现

#模式匹配具有贪婪性,会尽可能匹配长字符串,不加“?”会一直匹配到每一行最后一个;

改变列的顺序输出

less test_ori|cut -f 9|cut -d ";" -f 1,4,5|perl -npe "s/ /_/g"|perl -npe "s/;/\t/g"
ID=Os01t0100100-01  Note=RabGAP/TBC_domain_containing_protein.  Transcript_evidence=AK242339_(DDBJ%2C_antisense_transcript)
ID=Os01t0100200-01  Note=Conserved_hypothetical_protein.    Transcript_evidence=AK059894_(DDBJ%2C_Best_hit)
less test_ori|cut -f 9|cut -d ";" -f 1,4,5|perl -npe "s/ /_/g"|perl -npe "s/;/\t/g"|awk '{print $2,$1,$3}'#依次输出第二列,第一列,第三列
Note=RabGAP/TBC_domain_containing_protein.ID=Os01t0100100-01Transcript_evidence=AK242339_(DDBJ%2C_antisense_transcript)
Note=Conserved_hypothetical_protein.ID=Os01t0100200-01Transcript_evidence=AK059894_(DDBJ%2C_Best_hit)

注意awk输出的时候,空格也会被识别为列分隔符

可以先把Note=RabGAP/TBC domain containing protein. 中的空格替换成下划线(_)

行处理,取出特定行

less test_ori|cut -f 9|cut -d ";" -f1,4,5|perl -npe "s/ /_/g"|perl -npe "s/;/\t/g"
ID=Os01t0100100-01  Note=RabGAP/TBC_domain_containing_protein.  Transcript_evidence=AK242339_(DDBJ%2C_antisense_transcript)
ID=Os01t0100200-01  Note=Conserved_hypothetical_protein.    Transcript_evidence=AK059894_(DDBJ%2C_Best_hit)
lesstest_ori|cut-f9|cut-d";"-f1,4,5|perl-npe"s/ /_/g"|perl-npe"s/;/\t/g"|sed-n"2p"#取出第二行#
ID=Os01t0100200-01  Note=Conserved_hypothetical_protein.    Transcript_evidence=AK059894_(DDBJ%2C_Best_hit)

讲到这里,常用的命令就讲完了,看你们如何排列组合,发挥它们的潜力啦~

文件输出

less test_ori|cut -f 9|cut -d ";" -f 1,4,5|perl -npe "s/ /_/g"|perl -npe "s/;/\t/g">result  # >后接文件名即可

当处理的文件数据特别大,不方便标准输出,命令行处理过程中可用 head 查看前几行

less test_ori|cut -f 9|cut -d ";" -f 1,4,5|perl -npe "s/ /_/g"|perl -npe "s/;/\t/g"|head -10#查看结果前10行
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343