微生物多样性分析—OTU聚类与注释

一、OTU聚类

1.1  为何要进行OTU聚类

a) 测序完成后,每例样品的测序序列达到几万条,对每一条序列当然都可以进行物种注释,但这种方式工作量大,毕竟每一条序列均需要与数据库进行比对、比对过程又比较耗时,而且扩增、测序等过程中出现的错误会降低比对结果的准确性。

b) 因此,在微生物多样性研究中,引入了OTU的概念,首先对序列按照一定的相似程度进行聚类,每形成的一类称为一个OTU,一个OTU中序列的差异程度不能大于规定的相似程度,基于分类单元(OTU)进行物种注释(即从OTU中选择一条代表序列与数据库进行比对获得分类地位信息,便是该OTU的分类地位信息)。 

c) 如此操作,不仅简化工作量,提高分析效率,而且OTU在聚类过程中还可以去除一些错误的序列,如嵌合体序列,提高分析的准确性。

1.2  OTU的概念

OTU(Operational Taxonomic Units)是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。  

在生物信息分析中,一般来说,测序得到的每一条序列来自一个菌株。要了解一个样品测序结果中的菌种、菌属等数目信息,就需要对序列进行归类操作(cluster)。通过归类操作,将序列按照彼此的相似性分归为许多小组,一个小组就是一个OTU。

1.3微生物多样性研究中OTU聚类相似度的选择

1)细菌16S多样性研究中,目前主要按照序列97%的相似性进行OTU聚类

主要原因:在16S全长比对中,97%相似性可以认定为同一个种,所以可以初步认为一个OTU都是属于一个种的微生物,而细菌16S研究中,解释度最可靠的分类学地位是“属”,所以97%相似度划分OTU可以被接受。

2)OTU相似度的选择可以通过如下方式进行选择

将序列按照梯度相似度(如:70~99%之间)分别进行OTU聚类,将不同相似度的OTU数量进行统计,当在某一相似度时,OTU数量出现拐点时,即为最合适的聚类相似度。

因此,在早期16S多样性研究中,也有使用96%和98%相似度进行OTU聚类的。

在功能基因多样性研究中,聚类相似度浮动会比较大,不同的功能基因,聚类相似度在80%左右,甚至30%左右。


OTU聚类相似度选择示意图

1.4  OTU聚类方法

①de novo 

②closed-reference 

③open-reference  

这三种常见方法均有文献发表,文献中也介绍了其原理,这里不再过多介绍。  

以上三种方法具有各自的优势和劣势,但主要集中在是否有比对数据库;是否丢弃未比对上的序列;是否所有序列进行比对,进而导致的分析时长及准确可靠性。 

④OTUX:19年发表的一种方法

文献:OTUX:V-region specific OTU database for improved 16S rRNA OTU picking and efficientcross-study taxonomic comparison of microbiomes(2019DNA Res)

1.5  OTU聚类时错误序列的去除

•OTU聚类时使用的“原料” :去除掉重复序列的“Cleandata”(去除掉Cleandata中重复[即一模一样的]序列)。 

•OTU聚类时需要去除哪些错误序列: 

a)嵌合体序列; 

b)测序错误序列:OTU聚类时,将OTU中仅有一条序列的OTU去除。

原始数据处理时遗留问题解答:

Cleandata通过嵌合体等去除后才可正式进入分析环节,因此,Cleandata的序列数量应比正式进入分析的序列要多。

1.6  嵌合体序列产生的原因及种类

嵌合体产生的原因:细菌多样性研究中,产生嵌合体的主要原因是在16S扩增过程中不完全的模板延伸造成的。在一个循环中由一个序列连接到另一条序列的部分区域上。 

嵌合体的种类:ü两个不同序列区域产生的嵌合体(bimeras);  

多个不同序列区域产生的嵌合体(multimeras)。 

嵌合体的占比约为10%左右(个人经验)

1.7  如何减少嵌合体产生

a.Tuchdown方法:以缓慢的速度升降PCR反应温度;

b.修整PCR方法:在新的PCR体重中稀释PCR产物10倍,进行三次循环,可减少嵌合体;

c.PCR体系调整:适当降低Mg离子浓度,dNTPs浓度,DNA聚合酶浓度;适当增加反应温度;减少蛋白污染 

d.调整PCR程序:减少循环数。 

e.借鉴qPCR实验手段:选择或者更换合适的酶;适当提高引物浓度(1μM),但不宜过高,会增加二聚体产生的几率;采用两步法PCR,即退火和延伸温度在同一温度完成。

二、OTU物种注释

为了得到每个OTU对应的物种分类信息,采用RDPclassifier贝叶斯算法对一定相似度水平的OTU代表序列进行分类学比对分析,并分别在各个分类水平:domain(域),kingdom(界),phylum(门),class(纲),order(目),family(科),genus(属),species(种)统计各样品的群落组成。

三、物种注释数据库

注释数据库汇总
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,898评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,401评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,058评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,539评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,382评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,319评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,706评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,370评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,664评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,715评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,476评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,326评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,730评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,003评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,275评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,683评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,877评论 2 335

推荐阅读更多精彩内容