基因家族生信分析基础，基础到教你序列下载的那种基础！（一）

写在前面：首先这是一门售价为 0.01 元的视频课，应该买不了吃亏和上当哈~ 而且和我本人没有任何关系，单纯觉得还蛮有用，推荐一下哈~

具体课程目录举例见下图，都是基础中的基础，性价比较高，如果你也是湿实验出身，毫无生信基础，可以考虑看看这些内容哦。

课程部分截图

正文在这：

这个课程其实我在研二的时候看过一部分，上面截图里的圈圈就是我看过的记录，然而当时懵懵懂懂，看的内容也是一知半解，且这个视频内容大多是基于一个生信软件TBtools（简书可搜：生信札记），这对于当时天天忙于做实验的我，实用性不高。

回到现在，因为疫情只能在家学习，写文章之余发现确实有很多分析结果需要这些生信软件的支撑，这也让我明白了结合实验和生信的必要性。所以，当我开始自学TBtools的时候，也顺便把这个视频课捡起来看看。都说好记性不如烂笔头，更何况我记性也不太好，所以就边看边总结，有助于加深印象，防止自己以后忘记了又要重新开始哈哈哈。

1 已知基因家族成员下载——NCBI

首先基因组数据库有很多：NCBI，EMBL，DDBJ，JGI 等等，最常用的NCBI：

根据你想下载的内容选择 Nucleotide 或者 Protein，输入物种拉丁名和家族名称然后search，如：

选择 Nucleotide 或者 Protein，而不是Gene！

下拉选择你需要的内容，勾选，右上角Send to ——》File ——》Format：FASTA ——》Create File，即下载成功。

File ——》Format：FASTA

2 根据发表文献中ID获取序列（TBtools的应用）

① Sequence Toolkit ——》NCBI sequence Fetch ——》NCBI sequence download：可以根据序列的 Accession number 或者 GI number 在本地进行下载，批量下载换行即可

Accession number 或者 GI number 在这里

② Sequence Toolkit ——》Fasta Tools ——》 Fasta Extract：可以根据文献中的某家族成员ID，在总的基因组序列文件中进行提取

我想提取的序列们，只需粘贴ID即可

3 GFF文件的下载——NCBI

GFF文件：里面包含基因的外显子和内含子等信息，方便基因结构的分析。而且如果下载了GFF格式无法打开，可以用TBtools里面 Other——》Big File Previewer，然后将文件拖拽尽力即可快速查看：

TBtools查看

或者win+R，打开cmd，cd Desktop是打开桌面的意思，回车打开，more+想要查看的文件名，可输入一部分，后面tab补齐，再回车即可查看：

cmd查看

那么，去哪儿下载GFF文件？ NCBI上先选Genome，再输入拉丁名，一键search。

可分为1或2两种下载方式

1.点GFF直接下载。

2.GenBank选择想要的基因组版本，可以找到更多更全面的基因组信息，如下图：

GenBank里信息更多更全面

4 GFF文件的下载——其他数据库

讲的动物，人类，木薯啥的基因组下载，好像用不太到哦。

5-8 本地blast的应用

因为TBtools也支持blast功能了，我就直接用TBtools了。

根据下载的文件，本地进行blast

blast步骤图

visualize之后，选择不同的可视化模式，关闭窗口即可。

选择显示模式

blast结果的可视化

9 CDD确定结构域

CDD：CD-search工具：鉴定蛋白质或者核酸序列内保守结构域。Batch啥意思，批量的意思，所以之后你看到带Batch的就知道，哦，这个是批量处理工具，比如点开CDD页面正中间的：

学以致用厉害吧

然后输入蛋白序列，submit，就能找到输入序列的保守功能结构域哈。需要注意的一点是，当你把结构域结果下载下来，表格中有一项 Incomplete，“-” 则表示正常，“C或者N” 则需注意（据我推测可能表示比对到保守结构域的C端或者N端？）。这个时候我们需要剔除比对长度小于50%的序列，举例来说，如果A结构域是100，但是你只比对到49，那这个比对结果可能不可靠，剔除。

10 Pfam确定结构域

Pfam：蛋白质家族的集合，每个蛋白家族由多序列比对和Hmm模型的形式表示。

点进Pfam网址后，输入你的蛋白序列和邮箱，submit。网页上的结果不如邮箱全面，所以直接看邮箱结果即可。同样，如果有较短的结果，不可靠，需要剔除。

11 进化树

这题我会做，下一个。进化树步骤

12 基因结构绘制——TBtools

phytozome，植物的基因组序列数据库，需要注册。然后下载所需的gene.gff文件（1）。

确定你想绘制的所有基因的ID，整理到成一个txt（2）。

gff文件示意图

全部设置好之后start

调整颜色格式之后，Save Graph保存矢量图。

如果还想在基因结构左侧加一个进化树，那么用mega做好进化树，并保存为Newick（.nwk）格式，并且保证基因去CD search时候的顺序和进化树里的顺序是对应的。

将.nwk文件用Notepad打开，复制，粘贴到上图输入（2）的位置，再输入CD search的结果，start即可。

OK，今天先听到这里，视频课如果感兴趣的话，微信找到“今天吃了橙子”，回复“基础”，即可获取视频链接哦~

最后编辑于：2020.09.07 15:29:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345