2021-08-13 bed文件转换成gtf文件

convert bed to gtf

1.使用conda安装bedtogenepred和genepredtogtf包

conda install -c bioconda ucsc-bedtogenepred

conda install -c bioconda ucsc-genepredtogtf

2. 使用bedToGenePred将bed转换为GenePred格式

bedToGenePred input.bed input.GenePred

3. 使用genepredtogtf将GenePred转换为gtf格式

genePredToGtf file input.GenePred input.gtf

附：

（1）bed文件格式

BED (Browser Extensible Data) 文件包括3个必须列（chrom，chromStart，chromEnd）三列和9个可选列，并且这些列的顺序是固定的。bed文件一般以‘.bed’作为文件扩展名，以“\t”作为列分隔符。

3个必需列：

chrom：染色体的名称（例如chr3，chrY，chr2_random），其中的chr一般要求是小写。

chromStart：染色体中特征的起始位置。染色体中的第一个碱基编号为0。（注：由于基因注释文件格式中采用的是从1开始计算）

chromEnd：染色体中特征的结束位置。所述 chromEnd碱基并不包含在特性中。例如，染色体的前100个碱基定义为chromStart = 0，chromEnd = 100，并跨越编号为0-99的碱基。

9个可选列：

name：BED行的名称。

score：设定值在0到1000之间，可以用于表示基因的丰度，富集程度等，在genome browser中会以对于的灰度显示。

strand：基因的链方向，可以设定为无链方向“.” 或正方向“+”或负方向“ - ”。

thickStart：绘制自定义的起始位置（例如，基因显示中的起始密码子）。

thickEnd：绘制自定义的结束位置（例如基因显示中的终止密码子）。

itemRgb：R，G，B形式的RGB值（例如255,0,0）。

blockCount：BED行中的块（例如外显子）数。

blockSizes：块大小的逗号分隔列表。此列表中的项目数应与blockCount相对应。

blockStarts：以逗号分隔的块开始列表。应该相对于chromStart计算所有 blockStart位置。此列表中的项目数应与blockCount相对应。

例如:

（2）gtf文件格式

GTF全称为gene transfer format，主要是用来对基因进行注释。GTF文件包括9列。gtf文件一般以‘.gtf’作为文件扩展名，以“\t”作为列分隔符。

1）seqid：序列的编号，一般为chr或者scanfold编号。

2）source：注释的来源，一般为数据库或者注释的机构，如果未知，则用点“.”代替。

3）feature：注释信息的类型，比如Gene、cDNA、mRNA、CDS，5UTR，start_codon等

4）start：该基因或转录本在参考序列上的起始位置；

5）end：该基因或转录本在参考序列上的终止位置；

6）score：得分，数字，是注释信息可能性的说明，可以是序列相似性比对时的E-values值或者基因预测是的P-values值，“.”表示为空；

7）strand：该基因或转录本位于参考序列的正链(+)或负链(-)上;

8）phase：仅对注释类型为“CDS”有效，表示起始编码的位置，有效值为0、1、2(对于编码蛋白质的CDS来说，本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸，从0开始，CDS的起始位置，除以3，余数就是这个值，，表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置，取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5'末端；1表示该编码框的第一个密码子的第一个碱基位于该编码区外；2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外；如果Feature为CDS时，必须指明具体值。)

9）attributes：一个包含众多属性的列表，格式为“标签＝值”（tag=value），标签与值之间以空格分开，且每个特征之后都要有分号；（包括最后一个特征），其内容必须包括gene_id和transcript_id。以多个键值对组成的注释信息描述，键与值之间用“=”，不同的键值用“。

Ref

http://onetipperday.sterding.com/2012/08/convert-bed-to-gtf.html

http://genome.ucsc.edu/FAQ/FAQformat.html#format1

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

2021-08-13 bed文件转换成gtf文件

convert bed to gtf

推荐阅读更多精彩内容