GitHub中各个文件的作用

一:geisen_main_v1_2_1文件夹

(1)geisen_main_v1_2_1/src/geisen/downloader.py

主要函数:

①download_data_set  :用于异构下载。

输入文件为:name_of_dataset string 和folder_contains_dots,

输出文件:locations_of_storage,一个包含每个文件的存储路径列表

②download_genome: 用于基因组文件下



② download_genome:下载taxon_of_interest的基因组信息

输入文件: taxon_of_interest中ncbi分类法的 ID号

                  subset_of_interest NIH使用的扩展

输出文件:p_out

使用的数据资源为:基因,来自基因组RNA的编码序列和经验证的RNA序列获自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/

GCF_000001405.36_GRCh38.p10)



(2)geisen_main_v1_2_1/src/geisen/settings.py:这个文件是geisen_main_v1_2_1/src/geisen/downloader.py文件的下载相关参数设置

(3)geisen_main_v1_2_1/src/geisen/genealacart.py :这个模块包含了提取特定数据集的工具,它对下载的数据进行了整理。具体有以下几点:

①将从genealacard加载选定的数据集并以与生物学项目科学一致的格式导出


②加载genealacart数据集


③从ENCODE中加载增强子。并将它们放在可由gene_ncbi索引的格式中


④获取GIFT得分,它表示数据库中出现基因的部分。被genealacart用作基因一般注释密度的代理。


⑤加载启动子中的转录因子


⑥加载不耐受指标。并将它们放置在gene_ncbi可索引的格式中


⑦加载疾病指标。并将它们放在可由gene_ncbi索引的格式中。


⑧加载人类表型本体论。并将它们放在可由gene_ncbi索引的格式中


⑨获取具有明确Input Term, Symbol 和 Entrez Gene


⑩创建数据库,其中一列中的条目分隔为多行


(4)geisen_main_v1_2_1/src/geisen/gxa.py:从Matt Antalek (Rick Morimoto实验室)下载了几种模型生物的170222组织数据。


(5)geisen_main_v1_2_1/src/geisen/mapper.py(该文件是对下载的数据进行处理

该文件夹中包含了以下这些功能:

①将ensembl基因ID映射到NCBI (Entrez)基因ID。只考虑ensembl和entrez基因id的明确1:1映射

②将位点标记映射到NCBI的 (Entrez)基因ID。只考虑明确的 1:1映射。

③通过unprot (swissprot and trembl)在ncbi分类法IDs和分类单元名称之间手动检索查找

⑤将ensembl转录本ID映射到NCBI (Entrez)基因ID。

⑥将带有基因符号id的数据流映射到gene_ncbi

⑦将带有uniprot_protein IDs的数据结构映射到gene_ncbi

⑧对数据结构进行分组,并返回按gene_ncbi进行分组的数据结构,并通过how进行汇总


⑨检查索引或给定数据框架df列的 id_name 的存在,如果id是不明确的(出现在索引和列中)或不存在,将抛出错误

⑩获取一个系列中的重复值






2019.3.29

(6)geisen_main_v1_2_1/src/geisen/papers.py

该文件是从过去发表的出版物中提取一些适当的特征,用于机器学习。

如:

①从Blomen等人提取合适的表型并将其与NCBI gene ID一起保存,只能检索CRISPR cassettes的插入,并且将对KBM7和HAP1细胞进行检索。

②从Hart等人提取合适的表型并将其与NCBI gene ID一起保存。

③Itzhak等人于2016年测量了HeLa细胞的蛋白质定位和丰度

④由Lek等人于2016年出版的ExAc数据库

⑤处理Rolland等人2014年的补充数据。输出其考虑的基因,计算相互作用和相互作用的二进制表

⑥人类基因专利数据。注意,公司通常为一个n-mer序列及其变体申请专利,因此他们实际上并不为单个基因申请专利,而是为与基因有一定相似性的序列申请专利。

⑦人蛋白质图谱的蛋白质亚细胞定位

⑧形成人类蛋白质图谱RNA 转录本数据。


⑨Wang等人。(功能缺失突变监测适应性)


⑩将具有标称值的PANDAS数据数据结构转换为具有布尔值分类的PANDAS数据结构。


(7)geisen_main_v1_2_1/src/geisen/prepare.py:该文件夹是下载数据和收集各种特征等准备工作

使用的数据资源有:

基因,来自基因组RNA的编码序列和经验证的RNA序列获自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.36_GRCh38.p10)

基因和染色体的名称于2017年初从NCBI NIH获得(https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz)。

第一层:下载数据并生成相应的数据集


①从biogrid下载蛋白质相互作用数据库:

②从ncbi下载生物系统,并将其格式化以供进一步使用。生物系统在NCBI上具有两个版本(有GO注释和没有GO注释),这里没有GO的版本用于避免与gene2go重复


③将生物系统按taxon分开


④创建特定于分类单元的逗号分隔表,列出基因的基本属性(例如:GC内容、长度)

⑤创建以逗号分隔的表,其中列出了经过验证的RNA转录本的几个属性。包括:RNA的长度和编码序列,RNA中的核苷酸和编码序列,密码子偏倚的度量

⑥创建特定于分类单元的逗号分隔表,列出RNA转录本的预测编码序列(CDS)的几个属性。包括:RNA和核苷酸的长度(收集Genebank中RNA的特征)


⑦创建以逗号分隔的表,列出基因组预测的RNA转录本的几个特性。包括:RNA和核苷酸的长度


⑧从ncbi下载gene_info(基因信息),并将其格式化以供进一步使用

⑨下载gene2ensembl,并将其格式化以便进一步使用

⑩下载gene2go,并将其格式化以便进一步使用


⑪从NCBI上下载gene2pubmed并将其格式化以便进一步使用


⑫从NCBI中下载generifs_basic,并将其格式化以便进一步使用

⑬从基因检测登记处下载数据集


⑭下载uniprot数据库,创建完整的uniprot数据库下载


⑮准备Uniprot的ID映射

⑯从NCBI中下载taxdmp,并将其格式化以便进一步使用(taxdmp可以提供物种对应的rank信息)


第二层:这些数据集的生成要求首先执行第1层函数(并且成功地创建了相应的第1层数据集)


①提取关于染色体的信息

②Flybase黑腹果蝇(Drosophila melanogaster)内维持一个维护良好的基因表达集合。分离单个数据集,如modENCODE组织序列



2019.3.30

③Gerstein实验室维持了一个来自modENCODE的部分过时的(在其位点注释中)基因表达数据集,样本注释处于一个糟糕的状态,尽管modENCODE帮助会转发/CC它们并对它们进行直接处理,但是它们不能为许多样本提供适当的注释。这个函数将加载秀丽隐杆线虫的官方modENCODE高级代表


④从NCBI中下载同源基因,并将其格式化以便进一步使用

⑤将interpro数据库以一种易于使用的格式放置。Interpro是一个大型数据库,它联合了几个关于蛋白质的数据库。注意,单个数据库可以有引用相同interpro ID的条目(因此具有相同的蛋白质属性)。


⑥参考蛋白质数据库,提取分类单元特异性FASTA文件。


第三层函数:特征的注释


提取氨基酸的性质(包括衍生性质,如gravy和等电点),并将结果保存为逗号分隔的文件。


第四层函数:


①从一个分类单元的基因特异性计算中获得最佳排列的RADAR预测(分子内相似性),并将其保存为逗号分隔的文件


②从一个taxon的特异性基因的计算中获得SEG(序列复杂度),并将其保存为逗号分隔的文件,以便使用中位数映射到ncbi_gene_id


③从一个taxon的基因特异性计算中获得 signalP(信号肽和多跨膜),并将其保存为逗号分隔的文件


支持函数:这些支持性函数我认为是用来整理上面那些函数所下载的数据


①提取蛋白质氨基酸序列和性质。忽略并去除未定义的氨基酸,基本上只留下略微截短的蛋白质


②检查给定序列是否以起始密码子开始,以终止密码子结束,并由三的整数倍数组成,这表明不存在移码。


③计算腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶的含量

计数胞嘧啶+鸟嘌呤分数(CG含量)

计算腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶的总数(忽略未定义的核苷酸)


④将解析一个限定符列表并返回ncbi基因ID。如果基因ID不明确,或者没有找到,将返回nan(从限定符号列表中提取NCBI中基因的ID号)


⑤从uniprot表头中提取uniprot ID

⑥获取密码子选择偏倚的几个指标

⑦计算标准密码子的使用情况。

⑧seg的解析输出(低紧度提取程序)

⑨检查一个序列是否只由已知的ACGT核苷酸组成

⑩在给定字典中的每个键名前插入前缀和_

⑪提取单个蛋白序列(属于taxon_id定义的分类单元)作为FASTA,用于启动批处理(例如:通过RADAR),将忽略蛋白质片段。

⑫提取属于taxon_id定义的分类单元的蛋白质序列,作为FASTA(例如:用于SEG处理)。忽略蛋白质片段。

⑬在描述中没有找到返回wheter(片段)

⑭将包含表达数据的gerstein lab excel文件加载到panda数据流中;删除不需要的额外列

⑮加载完全映射的Uniprot

⑯检索到uniprot数据库(如swiss-prot或trmbl)的路径

⑰将两个数据格式保存到同一个文件夹中,第一个数据格式具有postfix_orig,而另一个数据格式具有postfix _ncbi_gene。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容