CRISPR(clustered regularly interspaced short palindromic repeats,成簇的规律间隔短回文重复序列)和CRISPR-associated protein 9(Cas9)共同组成的这套CRISPR-Cas9系统是一种细菌抵抗噬菌体DNA注入和质粒转移的天然防御机制。该RNA引导的DNA靶向编辑工具已被科学家用在基因组编辑、转录干扰、表观遗传调控等多个领域。
一、天然情况下,细菌如何抵抗噬菌体入侵?
从图1可以看到,CRISPR locus由这些元件构成:一开始是个反式激活的RNA基因,编码特异的非编码RNA(trancrRNA,trans-activating CRISPR RNA,橙色矩形),与重复序列具有同源性,后面是各种cas基因(多种颜色的箭头),接着是CRISPR array(棕色的菱形是重复序列,彩色的是间隔)。而这些间隔序列是细菌从噬菌体DNA中获得的遗传元件:当噬菌体感染细菌,细菌激活相关的cas基因——Cas1,Cas2,和Csn2,将新的间隔序列(暗绿色)整合到自身的CRISPR array中。一旦整合,新的间隔序列(spacer)会与其他间隔序列共同转录到一个长的CRISPR RNA前体(pre-crRNA)中,此pre-crRNA含有重复序列(棕色线)和间隔序列(深绿色、蓝色、浅绿色和黄色线)。tracrRNA是分开转录的,之后重组进入pre-crRNA的重复序列(tracrRNA与重复序列互补),经RNA酶III酶切处理成成熟的crRNA。进一步,在其他未知的核酸酶的作用下,剪切crRNA的5'端,使得引导序列长为20nt。在干扰过程中,成熟的crRNA-tracrRNA结构指引Cas9核酸内切酶对这个在PAM(protospacer adjacent motif,原间隔序列临近基序;特征为NGG,这里N可为任意碱基)前携带20nt的与crRNA互补序列的外源DNA进行切割。如果噬菌体再次注入DNA,那么这个免疫系统将被激活,来干扰噬菌体DNA。
图2IF>15的文献Fig. 5中tracrRNA在细菌基因组上的第二种定位(有疑问)
补充说明:关于tracrRNA基因的定位有少部分资料显示在Cas基因后,CRISPR array前(图2);另外,有些公众号文章说tracrRNA由重复序列转录而来。个人目前水平优先,所以觉得这两个点须要进一步核实。
二、CRISPR/Cas9在其它细胞中的应用
2.1 DNA剪切与修复
我们目前主要使用II型CRISPR系统(图3),它和其他类型的区别是,只需要一个DNA内切酶Cas9来对与sgRNA 20个碱基互补的带有PAM结构的双链DNA进行剪切。剪切后的DNA产生平末端的DSB(double strand break,双链断裂)。之后,要么发生易出错的非同源末端连接(NHEJ),导致切割位点容易发生小的随机插入和/或缺失(Indels:insert/delete的合成词,目前貌似还是非正规用词);要么进行高保真同源定向修复(HDR),这可利用同源修复模板在DSB位点进行精确修饰(图4)。
2.2 CRISPR-Cas9效应复合物组装与sgRNA结合后的构象重排
这里的例子是化脓链球菌(S. pyogenes)的Cas9(即SpyCas9或SpCas9),是一个含有1368个氨基酸的多结构和多功能的DNA核酸内切酶。它的切割位点在PAM上游的第三个碱基,通过HNH(sgRNA互补的目标序列)和RuvC核酸酶结构域(非目标序列)。要识别特定序列并进行剪切,sgRNA与Cas9组合成一个复合体,其中sgRNA与Cas9结合起着关键的作用,能够使Cas9重构,变得具有活性。crRNA前20碱基使得Cas9具有靶序列特异性,tracrRNA来招募Cas9蛋白。在这个系统中,有一个所谓的种子序列,20碱基的间隔序列的3'端10-12个核苷酸。在种子序列的错配以及本身同源性都会严重影响系统特异性和脱靶效率。
图5 sgRNA二级结构,灰色矩形区域代表全长sgRNA支架中的额外的重复序列与其重复反义序列,在基因组工程设计sgRNA时候通常是被去掉的。黄色区域代表sgRNA的3'尾巴,这对于Cas9功能不是必要的,在sgRNA-bound结构中是被省略掉的。
2.3 目标DNA搜索与识别
PAM序列非常关键,能够起到识别自身和外来的序列。如果PAM发生单一突变(原单词是single mutation,应该可以理解为点突变),那么就能够让噬菌体入侵宿主。在sgRNA互补之前,首先是寻找PAM序列,如果没有合适的PAM,那么通过蛋白三维结构的坍塌,CRISPR-Cas9复合体会离开DNA,直到找到合适的PAM。一旦找到PAM,Cas9就使DNA局部解链,RNA进入,与DNA互补,形成RNA-DNA结构。sg种子区域序列与靶DNA的完美互补是很重要的。
2.4 CRISPR–Cas9介导的DNA靶定与剪切模型
首先,guide RNA的结合,使得Cas9从一个未激活的构象变成具有DNA识别能力的构象。RNA种子序列先形成A型构象,为了目标结合和链入侵,PAM识别位点预先形成用来PAM识别。然后,Cas9结合到PAM序列,使得酶能够去识别附近的潜在的DNA靶序列。一旦Cas9在PAM附近找到了潜在的靶序列,会开始解双螺旋并继续检查剩余的靶序列。磷酸锁环稳定解旋的目标DNA,且第一个碱基开始翻转向上,与guide RNA碱基配对。而Cas9继续与非靶链上的翻转碱基作用,促进双螺旋解开。接着,碱基配对伴随着Cas9构象改变,促进种子序列前面的guide RNA从限制中释放出来,也形成配对,这个过程促使Cas9构象持续变化,直到到达有活性的状态。最终,guide RNA与目标DNA完全互补使得HNH具有稳定的,具有活性的构象,来剪切目标链DNA。与此同时,引起更大的构象变化,使得非目标链DNA进入RuvC催化中心被剪切,这种转态下,Cas9中牢牢结合在靶点序列上,直到其他的细胞因子过来替代它。
三、其它资料:CRISPR-Cas9向导RNA的类型
(A) 野生型化脓性链球菌(S. pyogenes)CRISPR系统使用的是分开的crRNA与tracrRNA。Alt-R® CRISPR-Cas9系统使用的crRNA和tracrRNA序列模拟的正是化脓性链球菌的序列。为了提高效率和便于生产,已经对其长度进行优化。(B)另一个通用方法是用一个短的连接序列将crRNA与tracrRNA连接成一个融合的sgRNA。对于两种向导类型,crRNA(粗绿色条)中的原间隔序列元件都赋予了剪切位点特异性。crRNA和tracrRNA与Cas9酸内切酶形成复合物,指导并激活Cas9对基因组DNA进行切割。除了原间隔元件,所有SpyCas9(或SpCas9)的靶序列需要一个相反链上紧接着的短的NGG PAM序列。在缺少PAM序列的位点剪切不会发生。双链切割一般发生在靶序列上距离PAM位点3个碱基的位置。
翻译整理:Voldemort