正式开始之前,说一点最近刷屏的假疫苗事件。2016年4月份济南发生疫苗质量安全事件,当时我们的总理做过批示,要严肃彻查处理,绝不姑息。这次又看到总理对疫苗事件的批示还是绝不姑息。也许这次在老大的加持下不会凉凉啦。这次疫苗事件最大的受益者应该是那些进口疫苗吧。难道国外就没有黑心资本家?我想不能没有,只是那些不合格的会被挡在国门之外。现在我们很多物品会出口到美国等发达国家,都是同样的厂子生产的,为啥出口到国外的质量相对就好,而留在国内的质量不过关呢?医药行业应该要严加监管才是,也许是利润最够高,高到可以摆平监管之人吧。也许正应了马克思《资本论》中的一段话,
资本会逃避动乱和纷争,是胆怯的。这淡然是真的,却不是全面的真理。像自然据说惧怕真空一样,资本惧怕没有利润或利润过于微小的情况。一有适当的利润,资本就会非常胆壮起来。只要有10%的利润,它就会到处被人使用;有20%的利润,就会活跃起来;有50%的利润,就会引起积极的冒险;有100%的利润,就会使人不顾一切法律;有300%,就会使人不怕犯罪,甚至不怕绞首的危险。如果动乱和纷争会带来利润,它就会鼓励它们。
我们常常讲一分钱一分货,如果真的这样卖,厂家会倒闭,利润太低没有人会铺你的货。同样的产品不同的品牌,超市一定选择利润高的卖,没什么利润的品牌根本就进不来,久而久之这些有良心品牌就消失了,而那些一分货卖十分钱的品牌却越活越滋润。
马克思的这段话也适用于科研界,为啥大家要不断发论文?难道真有那么多的新发现要迫不及待的告诉大家?如果现在有一套合理的指标能够评价教学能力和成果,并且设定教学的收益要大于论文的收益,那么是不是热衷发论文的人会减少而热衷教学的人会增加?如果研究人员月入10万,还有多少人会夜以继日的发论文?也许穷就是一种病。这种病会让人丢掉理想,失去底线。毕业10年和刚毕业相比,我们失去的是什么?得到的是什么?
现在IWGSC的数据已经公开了(https://urgi.versailles.inra.fr/download/iwgsc/),大家可以下载数据了。
很多数据我们也已经放到我们网站上了,今天我们就说一说本次更新的东西。
1基因注释版本更新到1.1版本
以前的名字是TraesCS1A01G423200,现在的名字是*TraesCS1A02G423200。名字里加粗的部分就是变化的地方,01表示第一个版本,02表示第二个版本。也即现在的基因注释版本更新到第二个版本了。我们网站的blast数据库和序列调取部分已经进行了更新,同时在jbrowse里也更新了。因此,可以在网站上进行blast,调取基因序列和蛋白序列等操作。
2 基因表达数据更新
随着1.1版本的基因注释信息公开的还有基于这个版本的基因表达数据。也就是expVIP网站(http://www.wheat-expression.com/) 上的所有表达数据可以下载下来了。我们也已经下载下来了,本来想等到放到我们网站后再告诉大家,奈何数据太多,暂时没想到很好的呈现方式,所以这个事情要先缓一缓。不过大家也可以自己下载了使用和分析,下载地址是
iwgsc_refseqv1.1_rnaseq_mapping_2017July20.zip
这个数据很重要,如果你的实验已经涉及到基因,就免不了查看基因的表达。这个表达数据的公开实在很良心,让我们更省心。不要再去使用之前那两个旧的小麦表达网站了。
3 品种变异数据更新
本次还有一个比较良心的公开是品种材料的变异数据更新。这个数据我们已经放到jbrowse上了,如下图。
或者输入下面的地址也可以看到,
http://202.194.139.32/jbrowse/?data=Chinese_Spring
除了这些数据,我们还放了很多其他的变异数据,比如90k的标记,660k的标记,820k的标记等。
今天,我们就着重介绍下我们网站上的jbrowse,也即我们今天的第二部分。jbrowse的入口如下。
1 搜索
jbrowse里可以搜索基因的名字,标记的名字。这包括,普通SSR标记的名字,SNP标记的名字(90k,660k,820k)等,est的登录号,1.1版本的名字,TGACv1版本的基因名字,水稻和拟南芥基因的名字等等。这样,我们只要知道基因的名字就能快速获取其在基因组上的相关信息,省去了blast的时间。碰到没搜到的情况可能是因为数据不全,或者不能比对到基因组上,此时可以自行进行blast判断。
这里也可以输入区间跳转到指定的位置,如chr1B:86774801..86819500。
2 SSR
IWGSC1.0上的SSR类型我们已经注释出来了,这样就可以快速根据重复的次数等筛选区间内的SSR,然后获取SSR旁侧的序列在我们的引物设计平台上进行引物设计。这个过程是可以批量进行的,即一次筛选多个SSR和引物设计。
如我们想要获取chr1B:86774801..86819500区间里的SSR并设计引物。
此时,按照下图的操作获取区间内的SSR信息,然后拷贝至excel进行筛选。
筛选之后,记录SSR的染色体,起始位置,SSR的长度,格式如下图。按照此格式粘贴到http://202.194.139.32/PrimerServer/即可设计引物。
至于引物设计我们前面已经说过了,请参考文末链接。
3 群体变异信息
我们收集了普通PCR标记,SNP芯片标记等等,有些标记有群体的分型信息。
下面这张图主要展示了SNP在某基因附近的变异信息,这里以820k芯片为例。我们可以看到不同的SNP所显示的颜色不一样。颜色可以反映变异相对基因所在的位置和变异引起的蛋白序列改变,蓝色表示变异不在基因编码区,绿色表示变异在外显子上但编码的氨基酸为改变,而酒红色则表示引起了氨基酸的改变。还有一种提前终止等变化剧烈的SNP以红色显示,这里图上并没有。
点击SNP即可显示SNP的信息。具体显示的详细信息,见下图。
这里要提醒一点,基于SNP芯片的分型,这里只是根据参考基因组进行了order,由于小麦一个基因往往有3个拷贝,所以有时候显示A的SNP实际上可能在B或D上,这一点要要注意。SNP类的分型方法一般建议使用遗传图谱,而对于后面出现的rna-seq,外显子测序等以测序方法分型的数据,基本可以使用物理图谱的位置进行下一步的关联分型等。
其中“whealbi.minocc10”来自于URGI这次的更新,这个里面共包括487个材料的分型信息。详细信息如下图所示,我想说一下“DP”所表示的意思,DP表示某个位点上所有的reads总数,数值越高,可信度越大。如果此处数字缺失或以“.”表示,则表示此处没有reads支持,则某个材料的分型信息就缺失。
以上就是今天要说的内容,但这些内容往往点到为止,还需要大家自行在网站上探索,遇到问题可以在群里提问。加“wheatgenome”为好友可以入群。