生物信息中的Python 02 | 用biopython解析序列

上一篇文章生物信息中的Python 01 | 从零开始处理基因序列自己造轮子实现了序列的基础操作，但是在Python的世界里，一项工作只要重复的次数多了，那么一定就会有大神来开发相应的包来解决，这个包名就是 Biopython 。接下来我们试着使用它来实现简单的序列处理。

一、准备工作

1、按照上一篇下载fasta文件的步骤，可以同理得到GeneBank的数据格式

mark

2、现在我们的目录结构是这样的

mark

3、安装Biopython，这里有两种方案：

3.1 用pip安装Biopython，在cmd命令窗口输入

下载Python的包管理工具：pip

https://pypi.org/project/pip/#files

mark

下载完，解压，进入解压目录
- Linux 下输入
```
sudo python setup.py install
```
- windows 下，在下载目录，Shift+右键
- 如下图所示，点击在此处打开命令窗口
  
  mark
- 输入如下命令
```
python setup.py install
```
mark
测试是否安装成功，出现下图所示的提示即表示安装成功
```
pip -v
```
mark
进入 Pycharm 的Terminal 窗口，输入以下命令来安装 Biopython

pip install biopython

mark

3.2 直接用安装包安装

window系统：
- 下载地址：http://biopython.org/DIST/biopython-1.72.tar.gz
- 解压
- 按住shift并点击右键
- 在菜单栏点击在此处打开命令窗口，并输入如下命令：pyhton stepy.py install

Linux系统：

打开终端（快捷键：Ctrl+Alt+T）

在终端输入以下命令

$ wget http://biopython.org/DIST/biopython-1.72.tar.gz
$ tar -zxvf biopython-1.72.tar.gz
$ cd biopython-1.72/
$ sudo python setup.py install

测试是否安装成功

$ python
>>> from Bio.Seq import Seq
>>> seq = Seq('ATCG')
>>> seq
Seq('ATCG')

二、Biopython 基础用法

1 读取常见的序列文件格式（fasta，gb）

from Bio import SeqIO

# 读取包含单个序列 Fasta 格式文件
fa_seq = SeqIO.read("res/sequence1.fasta", "fasta")
# print fa_seq
# 读取包含多个序列的 fasta 格式文件
for fa in SeqIO.parse("res/multi.fasta", "fasta"):
    print (fa.seq)
# 一个多序列文件中的所有序列
seqs = [fa.seq for fa in SeqIO.parse("res/multi.fasta",  "fasta")]
print (seqs)
# 如果不想要seq对象中的字母表，可以用str()来强制类型转换
seqs = [str(fa.seq) for fa in SeqIO.parse("res/multi.fasta",  "fasta")]
print (seqs)

# 读取包含单个序列的 gb 格式文件
gb_seq = SeqIO.read("res/sequence1.gb", "genbank")
print (gb_seq)

2 浏览 fasta 序列文件内容

from Bio import SeqIO

# 读取包含单个序列 Fasta 格式文件
fa_seq = SeqIO.read("res/sequence1.fasta", "fasta")

# =====获取详细的信息=====
# 提取基因ID，name
# Fasta 文件中序列名所在行的第一个词被作为 id 和 name
print ("id: ", fa_seq.id)
print ("name: ", fa_seq.name)
# 基因 Description 是fasta文件格式中的第一行
print ("description: ", fa_seq.description)
# 序列
print ("seq: ", fa_seq.seq)
# 序列来源库信息（NCBI的数据库信息会包括数据库交叉引用）
print ("dbxrefs: ", fa_seq.dbxrefs)
# 全部序列的注释信息
print ("annotations: ", fa_seq.annotations)
# 序列中每个字母的注释信息
print ("letter_annotations: ", fa_seq.letter_annotations)
# 部分序列的注释信息
print ("features: ", fa_seq.features)

3 浏览 genebank 序列文件内容

from Bio import SeqIO

# 读取包含单个序列的 gb 格式文件
gb_seq = SeqIO.read("res/sequence1.gb", "genbank")    
print (gb_seq)

# =====获取详细的信息=====
# 提取基因ID，name
# gb文件中序列名包含比fasta更加详细的序列信息，下面分别是 id 和 name
print ("id: ", gb_seq.id)
print ("name: ", gb_seq.name)
# 基因 Description 是fasta文件格式中的第一行
print ("description: ",  gb_seq.description)
# 序列信息, 这里的序列信息是以 bioPython 中的seq对象存储
print ("seq: ", gb_seq.seq)
# 序列来源库信息（NCBI的数据库信息会包括数据库交叉引用）
print ("dbxrefs: ", gb_seq.dbxrefs)
# 全部序列的注释信息
print ("annotations: ", gb_seq.annotations)
# 序列中每个字母的注释信息
print ("letter_annotations: ", gb_seq.letter_annotations)
# 部分序列的注释信息,SeqFeature 对象的形式保存了features table中的所有entries（如genes和CDS等）
print ("features: ", gb_seq.features)
# 该基因的物种信息
print ("organism: ", gb_seq.annotations["organism"])
# 关于序列的注释信息，相关数据库的交叉引用号
print ("comment: ", gb_seq.annotations["comment"])
# 序列来源的物种名
print ("source: ", gb_seq.annotations["source"])
# 该基因的分类学信息
print ("taxonomy: ", gb_seq.annotations["taxonomy"])
# 该基因的整理后的注释信息
print ("structured_comment: ", gb_seq.annotations["structured_comment"])
# 该基因序列相关的关键词
print ("keywords: ", gb_seq.annotations["keywords"])
# 该基因的相关文献编号，或递交序列的注册信息
print ("references: ", gb_seq.annotations["references"])
# 该基因的入库时，给的基因编号，以及在染色体上的位点信息
print ("accessions: ", gb_seq.annotations["accessions"])
# 该基因的分子类型，一般为 DNA
print ("molecule_type: ", gb_seq.annotations["molecule_type"])
# 该基因的数据文件划分方式
print ("data_file_division: ", gb_seq.annotations["data_file_division"])
# 基因发布时间
print ("date: ", gb_seq.annotations["date"])
# 该基因的更新版本
print ("sequence_version: ", gb_seq.annotations["sequence_version"])
# 该基因的拓扑结构
print ("topology: ", gb_seq.annotations["topology"])

相信大家可以看到 GeneBank 比 fasta 格式更加详细和贴心，但是对于序列处理来说内存占用和运行时间比这些信息更加重要。这就使fasta成为我们一般在序列分析中常用的格式。

4 新建序列文件

from Bio.Seq import Seq

# 新建一个DNA序列对象
dna_seq = Seq("GGATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)
# 新建一个RNA序列对象
rna_seq = Seq("GGATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_rna)
# # 新建一个蛋白质序列对象
protein_seq = Seq("GGATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.protein)

序列对象由一段字符串和其对应的编码表所定义。我们可以从上述的代码中看到，字符串内容一样，唯一不同的就是第二个参数IUPAC值不一样。IUPAC (International Union of Pure and Applied Chemistry ) 是一个制定化学相关标准的组织，Biopython 所使用的编码表就是由它制定的，想了解详细细节可以参考http://www.bioinformatics.org/sms2/iupac.html ，详细定义如下：

名称	编码表
ambiguous_dna_letters	GATCRYWSMKHBVDN
unambiguous_dna_letters	GATC
ambiguous_rna_letters	GAUCRYWSMKHBVDN
unambiguous_rna_letters	GAUC
protein	ARNDCQEGHILKMFPSTWYV

5 修改序列文件

在生物学意义上，序列是不可以随便更改的，也就是不可变的。如果强行修改，那么就会报错TypeError: 'Seq' object does not support item assignment

dna_seq[0] = "G"

如果你执意修改也是可以的，但是不建议这么做

dna_seq_mutable = dna_seq.tomutable()
dna_seq_mutable[0] = "G"

6 操作序列文件

from Bio.Seq import Seq

# 新建一个DNA序列对象
dna_seq = Seq("GGATGGTTGTCTATTAACTTGTTCAAAAAAGTATCAGGAGTTGTCAAGGCAGAGAAGAGAGTGTTTGCA", IUPAC.unambiguous_dna)
# 序列信息
print ("Sequence: ", dna_seq）
# 序列长度
print ("Length : ", len(dna_seq)）
# 单个核苷酸计数
print ("G Counts: ", dna_seq.count("G")）
# 获取反向序列
print （"reverse: ", dna_seq[::-1]）
# 获取反向互补序列
print ("Reverse complement: ", dna_seq.complement()）
# 获取蛋白质的反向互补序列，这里显然是报错的，因为蛋白序列没有这一属性
print ("Protein reverse complement: ", protein_seq.complement()）

7 用 Biopython 将 DNA 翻译为 RNA

# =====转录=====
# 如果序列为编码链，那么直接转换
print ("rna: ", dna_seq.transcribe())
# 如果序列为模板链，就需要先转为编码链
transcribe_seq = dna_seq.reverse_complement().transcribe()
print ("rna: ", transcribe_seq)

8 用BioPython 将 RNA 翻译为蛋白质

# =====翻译=====
print ("protein: ", transcribe_seq.translate())
# 如果翻译的是线粒体密码子，那么在参数中需要输入，其他参考 https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c or ftp://ftp.ncbi.nlm.nih.gov/entrez/misc/data/gc.prt
print ("protein: ", transcribe_seq.translate(table="Vertebrate Mitochondrial"))
# 在现实生物世界中，一般在遇到终止密码子之后的序列不用翻译
print ("protein: ", transcribe_seq.translate(table="Vertebrate Mitochondrial", to_stop=True))
# 如果DNA序列为编码序列，可以直接翻译，DNA序列不是3的倍数时，报错
print ("protein: ", dna_seq.translate())
# 在细菌世界中，在细菌遗传密码中 GTG 是个有效的起始密码子，注意第一个密码子（正常情况下 GTG编码缬氨酸， 但是如果作为起始密码子，则翻译成甲硫氨酸）
bacterial_dna = Seq("GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCATAA", generic_dna)
print  ("protein: ", bacterial_dna.translate(table="Bacterial", to_stop=True))
print  ("protein: ", bacterial_dna.translate(table="Bacterial", cds=True))

7 做一些有意思的事

# =====寻找TATA框=====
# TATA框约在多数真核生物基因转录起始点上游约-30bp（-25~-32bp）处，基本上由A-T碱基对组成，是决定基因转录始的选择，为RNA聚合酶的结合处之一
print （"TA Counts: ", dna_seq.count("TA")）

# =====GC含量=====
# （A+T）/（G+C）之比随DNA的种类不同而异。GC含量愈高，DNA的密度也愈高，同时热及碱不易使之变性，因此利用这一特性便可进行DNA的分离或测定。
print （"GC Contenten", 100 * float(dna_seq.count("G") + dna_seq.count("C")) / len(dna_seq)）

# =====得到promoter序列=====
# 在寻找基因的promoter时(一般promoter的位点不确定)，但是可以通过将起始位点左右2kb基因视为promoter
# 这里训练切取，将切取设起始位点为前10bp
print （"Promoter seq: ",dna_seq[:10]）

生物信息中的Python 03 | 自动化操作NCBI

生物信息中的Python 04 | 批量下载基因与文献

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343

生物信息中的Python 02 | 用biopython解析序列

一、准备工作

1、 按照上一篇下载fasta文件的步骤，可以同理得到GeneBank的数据格式

2、现在我们的目录结构是这样的

3、安装Biopython，这里有两种方案：

3.1 用pip安装Biopython，在cmd命令窗口输入

3.2 直接用安装包安装

二、Biopython 基础用法

1 读取常见的序列文件格式（fasta，gb）

2 浏览 fasta 序列文件内容

3 浏览 genebank 序列文件内容

4 新建序列文件

5 修改序列文件

6 操作序列文件

7 用 Biopython 将 DNA 翻译为 RNA

8 用BioPython 将 RNA 翻译为 蛋白质

7 做一些有意思的事

生物信息中的Python 03 | 自动化操作NCBI

生物信息中的Python 04 | 批量下载基因与文献

推荐阅读更多精彩内容

1、按照上一篇下载fasta文件的步骤，可以同理得到GeneBank的数据格式

8 用BioPython 将 RNA 翻译为蛋白质