基因编辑(gene editing)是指对基因进行定点修饰的一项技术,可以精确地定位到基因组的某一位点上,在该位点上可以进行特定DNA片段的插入、缺失、修改和替换。基因定点修饰是研究基因功能及治疗人类遗传性疾病的重要手段。因此,接下来,我就从基因编辑的发展历史,相关的基因编辑工具,尤其是CRISPR/Cas9的原理、应用与实例等方面进行介绍。
基因编辑概述
(1)基因编辑历史
首先,我们了解一下基因编辑的历史(图1)[1]。最早的基因编辑是上世纪70年代在酵母中进行的基因替换。之后,随着对于人类等真核生物基因组损伤修复的研究深入,进入90年代和21世纪初,借助DNA碱基特异识别蛋白的改造,基因编辑工具ZFN(Zinc-finger nuclease)和TALEN(Transcription activator-like effector nuclease)得到了一定的发展。而从2012年开始,随着对CRISPR/Cas9机制的阐明以及在哺乳动物中成功进行基因编辑,新一代基因编辑技术引爆研究热潮。
(2)基因编辑工具
根据基因编辑的研究历史,可将基因编辑工具分为三代(图2)。第一代就是在酵母中利用同源重组技术进行的基因替换;第二代则是基于锌指酶或者转录激活效应因子TALE改造的基因定点编辑工具ZFN和TALEN;第三代就是现在热门的CRISPR/Cas系统。
基于同源同组的第一代基因编辑技术主要应用于酵母等内源重组效率高的单细胞生物。同源重组可以进行基因敲除(knock-out)和基因敲入(knock-in)。所谓的基因敲除就是指将基因组中某些基因通过一定的技术把它剔除掉,让这个基因的功能丧失;而基因敲入则是在基因组某个位点上把原本不存在的基因整合进去。以酵母中同源重组基因敲除为例(图3),我们首先要选择拟敲除基因的上下游约 500~1000 bp片段为同源臂,将同源臂克隆到携带筛选标记基因的质粒载体中;然后选择合适的限制性内切酶切割载体,引入双链断裂,再将线性化的 DNA 片段通过转化导入目标细胞;转入细胞的外源 DNA 片段被细胞内 DSB(double strand DNA break)识别因子识别,启动修复机制,将携带有筛选标记的外源片段通过同源序列之间的交换整合到酵母基因组 DNA;最后阳性转化子可以通过筛选标记(如营养缺陷和抗性等)获得并进一步通过菌落 PCR等技术验证基因编辑的准确性。这个例子中将原基因组中的基因替换成了筛选基因,其实是同时进行了基因敲除和基因敲入。酵母中用同源重组法进行基因敲除正确率约50%。当然,也能使用这种策略进行哺乳动物细胞的基因敲除,但是由于在哺乳动物细胞的细胞倍增时间长且同源重组效率低,这样的策略不仅耗时长,且成功率也极低。
第二代基因编辑技术是ZFN,TALEN技术。这两个技术的原理都是通过DNA核酸结合蛋白和核酸内切酶结合在一起建立一个基因编辑系统(图4)。它们分别借助锌指蛋白ZFP(zinc finger protein)和转录激活效应因子TALE(Transcription activator-like effector)进行特异DNA序列的识别(图4)。锌手指蛋白最早发现于非洲爪蟾的细胞,它们被用来定位基因组序列并启动特定基因的转录和蛋白质合成;而TALE蛋白来自一类特殊的植物病原菌——黄单胞菌,当感染植物时,病原菌分泌的TALE识别宿主植物靶基因的启动子区,调控相应基因的表达。
ZFP中DNA结合域部分一般包含3-6个独立的锌指重复结构,每个锌指结构约30个aa,能够识别3个碱基,因而一个锌指DNA结合域可以识别9-18bp长度的特异性序列。TALEN中DNA结合域包含14-20个TALE元件,每一个元件有34个aa组成,其第12-13位氨基酸残基可以特异识别核苷酸碱基,并且这两个氨基酸是高度变异的,不同的氨基酸对(RVD)识别不同的核苷酸碱基(例如HD识别C),因而通过修改这些RVD,可以实现TALEN对14-20个碱基的特异识别。因为这些蛋白可以识别一定的核苷酸序列,通过一定设计形成的系统可以对特定的基因进行基因敲除和基因突变。
ZFN和TALEN通常采用二聚体的形式进行基因编辑,这样可以提高编辑的特异性(图5)。一对ZFN和TALEN识别基因组的特异序列后,通过其融合的核酸内切酶对二聚体中间的DNA进行切割,形成DNA双链断裂,进而激活细胞的非同源末端修复或者同源重组修复系统进行DNA的修复。目前ZFN和TALEN已经应用到多种生物的基因编辑,并且均进入临床试验,用于基因治疗。
第三代基因编辑技术就是最近非常热门的CRISPR/Cas9 系统(图6)。1987年,在大肠杆菌的基因组中首次发现了一个特殊的重复间隔序列——规律成簇的间隔短回文重复序列即CRISPR序列(clustered regularly interspaced short palindromic repeats)。随后,在其他细菌和古菌中也发现了这一特殊序列。2005年,发现这些CRISPR序列和噬菌体的基因序列匹配度很高,说明CRISPR 可能参与了微生物的免疫防御。2007年则用实验证明了CRISPR/Cas 是细菌和古细菌为应对病毒和质粒不断攻击而演化来的获得性免疫防御机制。2013年,发现CRISPR/Cas9系统可高效地编辑基因组。随后张锋等使用CRISPR系统成功的在人类细胞和小鼠细胞中实现了基因编辑。至此,基于CRISPR/Cas系统的基因编辑和非基因编辑应用不同拓展。
CRISPR/Cas系统是细菌中一种RNA介导的获得性免疫系统,可以用来对抗入侵的病毒及外源DNA。当病毒首次入侵时,细菌会将外源基因的一段序列整合到自身的CRISPR的间隔区;病毒二次入侵时,CRISPR 转录生成 前体crRNA (pre-crRNA),pre-crRNA 经过加工形成含有与外源基因匹配序列的crRNA,该crRNA与病毒基因组的同源序列识别后,介导Cas 蛋白结合并切割,从而保护自身免受入侵(图7)。
CRISPR/Cas9基因编辑系统
下面,我们来详细介绍CRISPR/Cas9的作用机制。图8示为一个细菌中典型的CRISPR/Cas9基因结构,包括CRISPR序列,CRISPR相关基因(CRISPR-associated genes,Cas),tracrRNA(trans-activating crRNA)等。CRISPR识别序列由一个前导区(leader)、多个重复序列(repeat)和重复序列间的可变间隔序列(spacer)组成。其中Spacer指外来入侵的噬菌体或是质粒 DNA 的一小段 DNA 序列被整合到宿主菌的基因组,整合的位置位于CRRSPR的 5‘ 端的两个重复序列之间,这个重复序列就是Repeat。Cas蛋白则包括Cas9,Cas1,2以及Csn2等,其中Cas9使用来切割靶向DNA的,Cas1,2等则介导外源入侵片段整合进基因组形成Spacer。CRISPR/Cas系统编码tracrRNA(trans-activating crRNA),其指导RNase III和Cas9完成前体crRNA (CRISPR-derived RNA)的成熟,随后tracrRNA还能与成熟的crRNA的重复序列配对形成RNA二聚体,进而和Cas9蛋白结合成核糖核蛋白复合体,发挥识别和降解入侵的外源DNA功能。
crRNA(CRISPR-derived RNA)的成熟需要pre-crRNA通过碱基配对与tracrRNA (trans-activating RNA)结合形成双链 RNA,在Cas9和RNase III酶的剪切下形成成熟crRNA(图9)。
tracrRNA/crRNA 二元复合体指导 Cas9 蛋白在 crRNA 序列及PAM序列引导下识别特异位点并切割双链 DNA,其中Cas9 的 HNH 核酸酶结构域切割crRNA的互补链,其 RuvC-like 结构域则切割非互补链(图10)。噬菌体或是质粒上与间隔序列对应的序列被称为前间隔序列protospacer,protospacer的5‘或3’端延伸几个碱基序列很保守,被称为PAM (protospacer adjacent motifs),它的长度一般为2-5碱基,与protospacer相隔1- 4碱基。CRISPR/SpCas9的 PAM为:NGG。
CRISPR/Cas9系统发挥DNA靶向与切割功能依赖tracrRNA/crRNA 二元复合体,而为了简化操作,研究者将crRNA和tracrRNA使用linker连接,即构成了single guide RNA (sgRNA)(图11)。
在sgRNA的指导下,Cas9蛋白在PAM序列前3位切割DNA双链形成双链DNA损伤,触发细胞自身的DNA修复机制(图12),包括非同源末端连接NHEJ(Non-Homologous End Joining)和同源重组修复HDR (Homology-Directed repair)。其中,NHEJ随机引入突变:碱基突变,缺失,插入;而HDR则可以根据给定的同源模板进行精确引入突变:碱基突变,缺失,插入。
CRISPR/Cas9的应用
前面介绍了常规的CRISPR/Cas9的基本原理,接下我们简单介绍其相关应用。主要包括基因敲除,基因表达调控,基因定位与分离,碱基编辑以及RNA切割与定位分析等(图13)。
(1)基因敲除
基因敲除是CRISPR/Cas9最常规的应用。Cas9/sgRNA复合体再识别PAM和靶序列后,Cas9的两个核酸酶功能域分别在PAM序列前3为将DNA切割,形成平末端的DNA双链损伤,借助细胞内的NHEJ和HDR,可以进行功能基因的敲除(图14)。
Cas9蛋白上有两个DNA核酸内切酶功能域,分别负责切割两条DNA链。因此通过突变其中一个功能域,可以获得只能切割一条DNA链的Cas9 Nickase(切口酶)。这种酶同时配合两条邻近sgRNA使用,可以有效降低CRISPR/Cas9的脱靶效应。因为,单条sgRNA脱靶,只会造成DNA双链中一条链的断裂,细胞的DNA修复机制可以按照另外一条完整的链进行精确无误的修复,不会造成突变。而只有再两条sgRNA同时脱靶,并且脱靶位点很靠近时,才可能引入异常突变,因此,相对于Cas9与单条sgRNA组合而言,Cas9 Nickase与双sgRNA可以有效降低其脱靶效应(图15)。
(2)enChIP
同时将Cas9蛋白的两个DNA核酸内切酶功能域突变可以获得无DNA切割活性的dCas9(deactivated Cas9),这种突变并不影响dCas9在sgRNA指导下与DNA的结合。因此通过免疫沉淀dCas9可以实现对特定DNA区域的捕获,从何鉴定特定DNA区域的结合蛋白和RNA。例如图16示例中,靶向IRF-1座位的sgRNA可以有效富集相应的DNA区域,而对其他DNA区域Sox2 没有富集作用(图16)。
(3)基因原位表达调控
dCas9-sgRNA的特异靶向特性也可应用于基因的原位表达调控。分别从改造dCas9和sgRNA两个方面进行发展(图17)。在dCas9改造方面,通过将转录激活或者抑制因子与dCas9融合表达,可以实现基因原位转录激活和抑制。例如dCas9融合转录激活功能域VP64,P65和Rta等(dCas9-VPR)可以有效激活基因表达;而dCas9融合KRAB和MeCP2等则会显著抑制基因的转录。sgRNA的改造主要是在sgRNA中引入特定的RNA标签序列,这些标签系列可以和特定的蛋白质结合,例如MCP特异识别MS2,通过将效应因子如KRAB,VP64等和MCP融合表达,同样可以实现基因的转录抑制或激活。
(4)基因定位分析
将dCas9与GFP融合表达或者采用荧光基因标记的sgRNA可以进行基因定位分析(图18)。
(5)碱基编辑
单核苷酸变异会导致约2/3 人类疾病的发生,也是许多作物重要农艺性状变异的遗传基础,因此如何开发一种精准且高效实现碱基替换的技术尤为重要。理论上,HDR 途径可实现任意碱基之间的改变,但该途径受细胞类型及细胞周期的限制,且如何将供体DNA 高效递送到细胞中也是一大难题,这些弊端导致HDR 在动植物中的发生频率及应用范围均受到了一定的限制 。另外,NHEJ 途径会与HDR途径竞争发生,因此往往会造成靶点处不必要的编辑产物的产生。因此,DSB 引发的HDR 很难实现高效的、稳定的单碱基突变。
基于CRISPR/Cas9的碱基编辑系统(base editing)则是一种精准基因组编辑工具。目前有能够使C•G转换为T•A的胞嘧啶碱基编辑器(Cytosine base editor, CBE);和能够进行A-T转换为G-C的腺嘌呤碱基编辑器(Adenine base editor)。这两种碱基编辑器能在不产生 DSB 的情况下,分别利用胞嘧啶脱氨酶或经过改造的腺嘌呤脱氨酶对靶位点上一定范围的胞嘧啶(C)或腺嘌呤(A)进行脱氨基反应,最终经DNA 修复或复制,实现精准的 C-T 或 A-G 的替换 。
当Cas9n-胞嘧啶脱氨酶融合蛋白在sgRNA 的引导下靶向基因组DNA 时,胞嘧啶脱氨酶可结合到由Cas9 蛋白、sgRNA 及基因组DNA 形成的R-loop 区的ssDNA 处,将该ssDNA 上一定范围内的胞嘧啶(C)脱氨为尿嘧啶(U),进而通过DNA 修复或复制将U 转变为胸腺嘧啶(T),最终实现C 至T (C-T)或G 至A (G-A)的直接替换(图19)。
当Cas9n-腺嘌呤脱氨酶融合蛋白在sgRNA 的引导下靶向基因组DNA 时,腺嘌呤脱氨酶可结合到由Cas9 蛋白、sgRNA 及基因组DNA 形成的R-loop 区的ssDNA 处,腺嘌呤脱氨酶可将靶位点处一定范围的腺嘌呤(A)脱氨变为肌苷(I),肌苷在DNA 水平会被当作鸟嘌呤(G)进行读码与复制,最终实现A-G 的改变(图20)。
(6)Prime Editing
将Cas9切刻酶与逆转录酶融合表达,并利用prime editing guide RNA(pegRNA)最终实现靶位点的基因编辑,可以实现包括12种碱基替换、小片段碱基插入和缺失等(图21)。Prime editing具有非常广泛的应用前景,可以实现包括12种碱基替换、小片段碱基插入和缺失等的不同编辑用途。
(7)靶向RNA
Cas9酶可与称作为PAMmer的短DNA序列共同作用,识别并结合到单链RNA(ssRNA)特异位点上,切割RNA(图22)。
RCas9在PAMmer的互作下可以识别RNA,并且不影响RNA的转录以及翻译。原来核定位的RCas9在mRNA的作用下可以转运到质中,即RCas9可以示踪RNA的转运。dCas9可与称作为PAMmer的短DNA序列共同作用,识别并结合到单链RNA(ssRNA)特异位点上,示踪RNA(图23)。
CRISPR/Cas9实例
前面介绍了CRISPR/Cas9的基本原理与应用,接下来我们以实例介绍CRSIPR/Cas9进行基因编辑的具体流程。CRSIPR/Cas9系统主要涉及蛋白和RNA两种元件,因此目前CRISPR/Cas9的使用有三种不同的方式(图24)。包括基于DNA载体的表达系统;直接体外合成或者转录的Cas9 mRNA和sgRNA,以及预包装好的Cas9-sgRNA复合体。这三种方式各有优劣,根据实际需要进行选择。
CRISPR/Cas9实验流程主要包括以下5步,sgRNA设计,载体构建,sgRNA切割效率验证,基因敲除与单克隆筛选以及基因型检测(图25)。下面我们将从使用CRISPR/Cas9进行蛋白质,miRNA和lncRNA基因敲除以及基因敲入和碱基编辑等方面结合实例进行介绍。
(1)蛋白质基因敲除
蛋白基因敲除首先需要确定待敲除基因的靶位点,一般选蛋白的重要结构功能域,外显子;如果不能确定基因产物性质,可选择将待敲除位点放在起始密码子ATG后的外显子上。目前已经开发了几十种用于sgRNA设计的工具,可以使用不同工具进行预测,然后选择共有的进行实验。一般我们针对一个基因会设计多条sgRNA,从中筛选效率最好的。图24示CREB1基因的敲除,这里我们设计了两条邻近的sgRNA,采用的是Cas9 Nickase(图26)。
sgRNA包括靶向特定DNA序列的crRNA和tracrRNA骨架两部分,我们一般是通过载体表达sgRNA(图27)。一个sgRNA的表达单元包括三部分:RNA polyermase III启动子,如U6,H1等;靶向区;gRNA 骨架(图28)。例如,图26中所示,U6启动子表达sgRNA载体,针对特定基因位点进行sgRNA序列设计后,合成相应的oligo;使用Bbs I(Type IIS 限制性内切酶)进行酶切,将合成的oligo退火形成双链DNA后,连入其中,即可构建成表达相应sgRNA的载体(图28)。
设计好的sgRNA需要先进行切割效率的评估,筛选效率高的进行后续基因敲除。目前主要采用错配酶T7E1的方法进行。靶序列经 Cas/sgRNA 切割后由于缺乏修复模板,将主要以非同源重组的方式进行修复,或多或少会插入或删除一些碱基。因此将靶序列 PCR 扩增后经变性、退火,将形成错配。错配酶(T7E1 酶)将识别错配的杂合双链并剪切。产物电泳,比较切割条带与未切割条带的比例,即可反映出 Cas/sgRNA 的活性(图29)。
将Cas9和高切割效率的sgRNA转染细胞,使用荧光或者抗生素进行初步筛选后,进行单克隆筛选。可以采取有限稀释或者梯度稀释(GeneCopoeia)进行(图30)。
筛选到的单克隆细胞需要进行基因型检测。对于蛋白质基因,我们可以直接通过Western blot检测目的蛋白的表达情况,最后通过克隆靶向区明确基因组的突变情况(图31)。
(2)miRNA基因敲除
miRNA sgRNA 靶向位点一般设计在成熟miRNA的外显子上或者5’和3’侧翼序列。通过miRNA的表达,基因序列突变以及靶基因变化进行miRNA的敲除验证(图32)。
(3)lncRNA基因敲除
lncRNA由于其发挥功能的独特性,小范围的indel可能对其功能影响不大,因此lncRNA 敲除策略主要包括:(1)直接删除lncRNA的基因座位(如exon);(2)直接删除lncRNA的启动子区;(3)在lncRNA基因5’端引入转录终止信号。这种形成的基因敲除可以通过定量PCR和基因组序列缺失情况进行确认(图33)。
(4)基因敲入
CRISRP/Cas9结合同源重组修复可以实现基因片段的定点插入,即基因敲入。因此,基因敲入需要提供拟改变的供体序列,可以是载体或者ssDNA。这种供体序列两侧是与待敲入区两侧同源的序列,中间为拟插入的新序列。例如在HSP60蛋白的C端(终止密码子前)插入一个HA 标签(图34)。
在HSP60的终止密码子附近设计sgRNA,并设计相应的供体ssDNA,同步转染Cas9/sgRNA和ssDNA,通过PCR和Western blot分析HA标签的敲入情况(图35)。
(5)碱基编辑
根据拟编辑区设计sgRNA,通过碱基转换实现氨基酸的突变或者无义突变(图36)。
小结
(1)二代和三代基因编辑系统比较
(2)脱靶效应与伦理问题
基因编辑的准确性并不是100%,同样存在着风险。基因编辑的最大问题就是其脱靶效应,在进行基因编辑时有可能在基因组目标基因以外的地方造成其他基因的突变。如果这种脱靶效应发生在一些重要基因上,可能导致严重疾病。
基因编辑的另一个重要问题是生物医学伦理问题。利用基因编辑技术进行遗传缺陷基因的修复目前是可以接受的。但使用基因编辑技术进行人种优化,例如提高智商、强健身体等,可能带来更大的不平等和基因多样性的缺失,可能给人类的发展带来巨大的风险。
参考文献
1. Doudna, J.A. and E. Charpentier,Genome editing. The new frontier of genome engineering with CRISPR-Cas9.Science, 2014.346(6213): p. 1258096.
2. Li, C. and H.Q.Lou,From gene editing to genome reconstitution: evolving techniques in yeast.Yi Chuan, 2015.37(10): p. 1021-8.
3. Moore, F.E., etal.,Improved somatic mutagenesis in zebrafish using transcription activator-like effector nucleases (TALENs).PLoS One, 2012.7(5): p. e37877.
4. Hsu, P.D., E.S.Lander, and F. Zhang,Development and Applications of CRISPR-Cas9 for Genome Engineering.Cell, 2014.157(6): p. 1262-1278.
5. Ran, F.A., et al.,Double nicking by RNA-guided CRISPR Cas9 for enhanced genome editing specificity.Cell, 2013.154(6): p. 1380-9.
6. Fujita, T. and H.Fujii,Efficient isolation of specific genomic regions and identification of associated proteins by engineered DNA-binding molecule-mediated chromatin immunoprecipitation (enChIP) using CRISPR.Biochem Biophys Res Commun, 2013.439(1): p. 132-6.
7. Chavez, A., et al.,Highly efficient Cas9-mediated transcriptional programming.Nat Methods, 2015.12(4): p. 326-8.
8. Yeo, N.C., et al.,An enhanced CRISPR repressor for targeted mammalian gene regulation.Nat Methods, 2018.15(8): p. 611-616.
9. Dominguez, A.A., W.A.Lim, and L.S. Qi,Beyond editing: repurposing CRISPR-Cas9 for precision genome regulation and interrogation.Nature reviews. Molecular cell biology, 2016.17(1): p. 5-15.
10. Chen, B., et al.,Dynamic imaging of genomic loci in living human cells by an optimized CRISPR/Cas system.Cell, 2013.155(7): p. 1479-91.
11. Wang, H., et al.,CRISPR-mediated live imaging of genome editing and transcription.Science, 2019.365(6459): p. 1301-1305.
12. Komor, A.C., et al.,Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage.Nature, 2016.533(7603): p. 420-4.
13. Gaudelli, N.M., etal.,Programmable base editing of A*T to G*C in genomic DNA without DNA cleavage.Nature, 2017.551(7681): p. 464-471.
14. Anzalone, A.V., etal.,Search-and-replace genome editing without double-strand breaks or donor DNA.Nature, 2019.
15. O'Connell, M.R., etal.,Programmable RNA recognition and cleavage by CRISPR/Cas9.Nature, 2014.516(7530):p. 263-6.
16. Nelles,David A., et al.,Programmable RNA Tracking in Live Cells with CRISPR/Cas9.Cell, 2016.
17. Ran, F.A., et al.,Genome engineering using the CRISPR-Cas9 system.Nat Protoc, 2013.8(11):p. 2281-308.
18. Li, B., et al.,CREB1 contributes colorectal cancer cell plasticity by regulating lncRNA CCAT1 and NF-κB pathways.bioRxiv, 2020.
19. Chang, H., et al.,CRISPR/cas9, a novel genomic tool to knockdown microRNA in vitro and in vivo.Sci Rep, 2016.6: p. 22312.
20. Ho, T.T., et al.,Targeting non-coding RNAs with the CRISPR/Cas9 system in human cell lines.Nucleic Acids Res, 2014.
21. Li, L. and H.Y.Chang,Physiological roles of long noncoding RNAs: insight from knockout mice.Trends Cell Biol, 2014.24(10): p. 594-602.
22. Chadwick, A.C., X.Wang, and K. Musunuru,In Vivo Base Editing of PCSK9 (Proprotein Convertase Subtilisin/Kexin Type 9) as a Therapeutic Alternative to Genome Editing.Arterioscler Thromb Vasc Biol,2017.37(9): p. 1741-1747.