前面的推文(多组学联合应用···)给大家介绍了我们常见组学的基础知识,还没看的快去前面补补课吧。今天我们详细的给大家介绍一下蛋白质组学。目前有关蛋白质组学的内容已经研究的热火朝天,截至目前,在pubmed上检索蛋白质组学的关键字,发文量是相当大的,但是即使是这样,我们知道由于蛋白质是人体的主要组成成分,许多疾病的发生都与蛋白质相关,所以即使研究火热但是蛋白质组学仍然有很大的挖掘空间。
蛋白质组学的研究一般包括:
1.样品的制备。这一步是为了测序做准备。
2.蛋白质的分离和富集。常用方法有凝胶电泳,液相色谱,亲和层析等。
3.蛋白质酶解鉴定。常用的有质谱技术,这一步主要是通过质谱仪对蛋白质酶解产生的肽段检测。
4.定量。常用的蛋白质定量方法有生物素标记法,放射性标记法等来检测蛋白质的浓度。
5.生信分析。通过生物信息学方法对数据进行处理和分析,常用的分析包括差异蛋白的筛选、功能注释、蛋白互作等,并且将关键蛋白与疾病的生物学过程相关联。
目前低分文章的研究一般是将蛋白质组学和差异表达的蛋白结合起来,筛选出差异蛋白后对其功能和参与的通路进行研究。
由于蛋白质组测序的价格昂贵并且对过程的要求精确,所以一般除了特别大的科研机构会自己制作样本进行测序,我们大部分人分析用到的还是来源于公共数据库的数据。
蛋白质组学原始数据的下载一般来源于ProteomeXchange,这是一个专门储存蛋白质数据的数据库,其中包含了多个物种。它的旗下包括了PRIDE , MassIVE, PeptideAtlas等平台,最常用的是PRIDE和iProX。
这里以PRIDE为例我们来看下如何进行数据的检索与下载
首先是进入网址:
https://www.ebi.ac.uk/pride/。
在这里可以检索关键词,这里以肝癌数据为例,我们可以看到这里检索到360个数据集,每一个数据集都有基本的介绍。
点击编号进入详细页面,可以看到他的标题、描述、样品处理协议、数据处理协议、提交时间等,右边也有更详细的介绍。
往下翻即为数据下载界面,我们可以对原始数据进行下载。
下载好的数据需要用Maxquant软件进行处理,这个软件目前认可度相对较高,可以在window和linux上运行。处理完数据以后就可以进行后面的生信分析了。
此外给大家介绍一下国际上著名的Uniprot数据库,数据主要包括测序完成后获得的蛋白质序列,它是由Swissprot、TrEMBL、PRI-PSD三个数据库组合成,包含了大量来自文献中蛋白质的功能信息。
网址:https://www.uniprot.org/,主页就是下面这样。
点击species可以检索目标物种,例如:人
点击前面的entry号,下翻找到components,点击view proteins。
点击cunstomize选项,勾选这几个
点击储存,然后点击下载选项,选择文件类型即可进行下载,如果想在电脑查看可以下载为tsv类型。
数据下载完成以后,我们会得到许多蛋白质的定量信息,那么接下来我们要做的就是大量的信息当中去筛选关键蛋白,并进行后续的生信分析,例如差异表达、功能注释这些。
END
想做蛋白质组生信但是没有数据来源的,学习了今天的数据库可以去试试,数据处理还不会的朋友可以蹲蹲大碗后续的文章,篇幅有限今天先介绍这么多。