1989年时,西班牙的莫希卡(Francisco Mojica)服完兵役后回学校攻读博士学位。导师安排他研究一种细菌。莫希卡兴趣缺缺,却也无法违拗导师的意愿。那个不起眼的微生物是导师搜集、研究了一辈子的钟爱。
的确,莫希卡面对的其实不是日常意义上的细菌。生物学家传统上将生物分为两个大类,或曰“域”(domain)。单细胞的细菌自成一类,属于缺乏细胞核的“原核生物”。在那之外的动物、植物等等属于另一类,因其细胞中具备完整的细胞核而被称为“真核生物”。
这个直观的分类在对生物的观察进入分子层次的1970年代遭遇挑战。原核生物与真核生物之间的区别不只是细胞核的存在与否,更在于它们的DNA和RNA中碱基序列的结构有着明显的不同。这说明它们分别来自截然不同的遗传承继。但同时,有些细菌表面上也是不具细胞核的单细胞生物,其碱基序列的结构却与普通细菌迥然相异,更接近于真核生物。微生物学家乌斯(Carl Woese)将这些别具一格的“细菌”专门设立有别于原核和真核生物的“第三域”1,让它们在达尔文的生命之树上自成一枝。因为在进化的传承上直接来自远古的微生物,这个新的域被命名为“古菌”(Archaea)。
莫希卡的导师所钟情的便是古菌的一种。这些属于第三域的微生物还有一个奇异之处:它们总是生存于其它生物无法存活的极端环境里,比如高热度的温泉中或压力、温度都非常高的海底火山口附近。莫希卡要研究的古菌更是奇葩,喜好的是超高盐分的所在。西班牙东南沿海盛产海盐。他的导师便是在那里的盐田里收集到两种古菌。
导师希望莫希卡以现代的基因技术找出古菌能够在恶劣的高盐环境中乐不思蜀的原因。那时,文特尔的塞莱拉公司还没有开始系统地为细菌基因组测序。莫希卡只能像众多生物研究生一样不辞劳苦地手工测序。他最终还是失望了,没能在古菌DNA中找到专门对付盐分的基因。但他同时也注意到一个奇怪的现象:古菌DNA的碱基序列中时不时会出现一小段完全相同的碱基序列。
反复核查确定那不是自己测序时出了差错之后,莫希卡跑进图书馆全面查找文献。他惊异地看到日本一位名叫石野良纯(Yoshizumi Ishino)的研究生在几年前发表的论文结尾处提到大肠杆菌的DNA中有一些重复的小段基因序列。石野良纯显然与莫希卡一样地不明就里,没有进一步深究。那篇论文也从来没被人注意到。
大肠杆菌是普通细菌,不属于古菌一域。两种在进化历程中相距甚远的生物DNA中出现同样的奇怪结构不会只是碰巧。无论是普通细菌还是古菌,它们作为最简单的生物都有着非常简洁的DNA,其中不具滥竽充数的内含子。每个碱基都应该是有意义的基因信息,包括那些时常重复的片段。莫希卡顿时来了兴趣。不过他和导师都想象不出那样的重复碱基序列会有什么含义,只能猜测可能与细胞分裂的机制有关。他们权且将这一现象命名为“串联重复”(tandem repeats)。
在莫希卡的古菌和石野良纯的大肠杆菌中串联重复的不是同样的碱基序列。大肠杆菌中“重复序列”(repeat)由29个碱基对构成。莫希卡在古菌中观察到的重复序列长度则超过30。他后来还在另外的古菌中发现长达几百碱基对的重复序列。有意思地是,不同细菌或古菌中重复序列虽然长短不同,却都是正读和反读时内容完全一致的“回文体”(palindrome),相当于用汉字写出的诸如“上海自来水来自海上”回文句子。
这些重复序列在细菌和古菌DNA长链中的重复没有明显的规律。在每两个重复序列之间将它们彼此分开的“间隔序列”(spacer)是一些长短、成分都不同的碱基序列。它们看起来像是普通的基因,但在细菌或古菌的细胞中却找不到相应的蛋白质。而如果这些序列只是像内含子那样的垃圾DNA,它们又全都被忠实地被转录为RNA存在于细胞之中,没有在RNA剪接过程中被去除。因此,它们都应该是古菌、细菌生命运作中必不可少的生命信息,只是无法猜透其实际用途。
十多年后,莫希卡已经荣升大学教授。他对古菌中神秘的回文体串联重复碱基序列依然念念不忘。同样的结构正陆续在各种细菌、古菌的DNA中被发现,表明它们是非常普遍的存在。但对这个奇怪现象有所知晓的还只是莫希卡和他周围为数不多的同僚。莫希卡觉得“串联重复”这个名字过于普通,不够引人注目。为了博得更广泛的关注,他在2001年提出一个新名称:“簇状规则间隔的短回文重复序列”(clustered regularly interspaced short palindromic repeats)。这个更详细地归纳该奇怪现象的称呼冗长拗口,但有着一个简洁明快的简称:CRISPR。在英语里,它是“清脆”2的同音词。
那是新世纪之初,基因研究的方式已经今非昔比。莫希卡和他的研究生们不再需要亲手测定DNA碱基系列。塞莱拉公司在成功测得第一个细菌的完整基因组之后正高歌猛进,以其高效率自动化方式持续测定各种细菌、古菌和病毒的基因组。储存这些基因信息的数据库是微生物学家不可多得的宝藏。莫希卡不时地会将自己收集的细菌重复序列和间隔序列输入计算机搜索程序,查看它们会不会是某个新近被测定的基因。这是一个瞎猫碰死耗子的游戏,结果无疑是频频失望。直到2003年8月的一天,莫希卡在陪同妻子度假时又找借口溜回实验室查寻,意外地第一次撞上大运。搜索结果显示大肠杆菌DNA中的一段间隔序列确实是基因,只不过它不是细菌自己的基因。那是以大肠杆菌为食的一种噬菌体的基因。
接下来几个星期里,他时来运转似地又连连得手,辨认出大肠杆菌的另外几个间隔序列也分别属于不同的噬菌体。
莫希卡恍然大悟。
早在半个世纪前,德尔布吕克和卢里亚在开创噬菌体研究领域时曾观察到培养皿中被病毒暴殄得近乎荡然无存的细菌有时会绝处逢生,重新繁衍壮大。他们知道那是生物进化所致:新生的细菌拥有对培养皿中的噬菌体有免疫力的基因变异,能够抵抗该病毒的侵袭。这一生存优势在细菌的细胞分裂时遗传给下一代,在噬菌体的眼皮底下再度造就兴旺的菌落。他们还发现细菌的“限制修饰系统”。一旦认出入侵的病毒,细菌会举起限制性核酸内切酶的大剪刀将其DNA剪碎,挫败病毒的入侵。那便是细菌防御噬菌体有效的盾牌。这一功能后来被伯格、伯耶和科恩等人应用于基因重组,在基因克隆、测序以及人类改造自然的基因工程中大显身手。
但德尔布吕克和卢里亚无法解释细菌如何能够“认出”侵袭它们的病毒,并将这一知识遗传给自己的后代。那时,沃森和克里克还没有发现DNA的双螺旋结构,遗传信息的分子机制尚未揭晓。
莫希卡看到大肠杆菌的DNA中隐藏有不同噬菌体的基因后立即领悟到个中含义。聪明的细菌为曾经侵蚀过它们的病毒留下了永久的基因“照片”,因而可以随时按图索骥,辨认出新入侵的外敌予以剿灭。那些在DNA长链中时不时再现的重复序列正是细菌储存不同噬菌体基因时所用的分隔符号,恰如人类以字符串格式制表时区分不同数值的标点符号。这些重复序列和被它们隔开的间隔序列构成一个简易的噬菌体基因数据库,将所知天敌的基因完整地储存在自己的DNA中。这个方式固然匪夷所思,却也十分地便利:作为自己DNA的一部分,整个数据库会自然而然地在细胞分裂时遗传给后代。
这一发现让人类第一次近距离观察生物体的免疫功能。自从地球上出现生命,病毒与细菌和古菌即在这场亘古战争中展开无休止的搏斗。病毒必须能够侵入细菌,劫持其细胞工厂为自己繁殖后代。但它们此举也同时置宿主于死地。为了自身生存,细菌不得不进化出针对入侵者的免疫力以自卫。被细菌这个有效盾牌阻挡的病毒只得通过突变更改自身的基因,作为细菌不认识的矛蒙混过关。而在新一轮绞杀中幸存的细菌又会将突变过的病毒基因纳入自己的数据库记录在案,扩展后代的免疫能力。这道高一尺魔高一丈的角逐正是达尔文进化论之物竞天择适者生存的生动写照。
兴奋莫名的莫希卡匆匆撰写论文,投稿于在生物学界影响最大的《自然》。不料,这家老牌刊物竟不假思索地退稿,连惯常的同行评议程序都没能进入。争辩未果后,莫希卡只好另谋出路,又接连遭遇另外三家期刊的拒稿。当论文最后在一份不起眼的杂志中杀出重围时,那已经是两年多之后的2005年。
所幸的是莫希卡没有因此失去优先权。在那焦虑的两年中,他不知道巴黎有一位微生物学家曾做出同样的发现。他们的论文也被各个期刊拒稿,直到莫希卡论文发表后才得见天日。在法国还有另一位在食品公司工作的分子生物学家霍瓦特(Philippe Horvath)。他与莫希卡一样热衷于用计算机检索微生物基因,也同样地看出细菌间隔序列的端倪。但他当时没能获得公司支持深入探究。直到2004年底该公司被丹麦的丹尼斯科3吞并,霍瓦特才获得资金购买DNA测序设备。
丹尼斯科是全球首屈一指的食品公司,尤其专长于酸奶和奶酪。巴斯德早在19世纪阐明那是牛奶在细菌的协助下发酵而成的独特食物。用作酵母的细菌是这个行业的生存之本。如果投入的细菌被牛奶中的噬菌体嗜食殆尽,成批的牛奶会无从发酵而变质报废。财大气粗的丹尼斯科因而毫不吝惜投资支持霍瓦特和公司内其他科学家研究细菌与病毒的生死纠缠。霍瓦特很快得知美国分部一位新入职的法国人巴兰古(Rodolphe Barrangou)也在琢磨这个课题。两位年轻人随即饶有兴趣地远程合作,频繁交流自己的实验设计和结果。很快,丹尼斯科通过测序证实细菌DNA中含有重复序列和间隔序列的CRISPR区域经常随时间变大,显示细菌的确在不断充实自己的病毒基因数据库。
他们随后选择一种自身对某种病毒没有抵抗力但其后代却已经对该病毒免疫的菌株进行测序比较,果然发现后代细菌DNA中的CRISPR区域比前辈多出两段序列。巴兰古于是动用基因工程的手段将后代细菌DNA中那两段序列剪除,那些细菌即刻失去对该病毒的免疫力。如果重新植入那两段序列,它们的抵抗力也随之恢复。而将同样的序列植入前辈细菌的DNA,那些原来在该病毒面前只能束手待毙的细菌也变得安然无恙。
那是2005年的8月,莫希卡论文终于发表的仅仅两个月后。那篇论文之所以饱经坎坷,一个重要原因在于《自然》等期刊编辑认为莫希卡所述纯属猜测,缺乏实际证据。巴兰古和霍瓦特的实验填补这一缺陷,无以辩驳地证实莫希卡的先见之明。
不过巴兰古和霍瓦特却也没能尽快地发表论文。作为丹尼斯科的雇员,他们有义务维护公司的商业利益。丹尼斯科一边紧锣密鼓地申请专利,一边开发利用这一发现为自己生产、出售的菌种增强免疫力的新技术。在那期间,巴兰古和霍瓦特只得三缄其口。熬过为时一年多的漫长等待,他们才向《科学》杂志提交论文。2007年3月,这篇第一个正式以CRISPR为题的论文横空出世。那正是石野良纯报告大肠杆菌DNA中存在奇怪的重复序列的整整20年后。
当然,由重复序列和间隔序列组成的CRISPR区域只是一个被动的数据库。细菌如何运用其中储存的知识抵御入侵的病毒、如何剪取噬菌体的基因丰富壮大自己的数据库还需要另外的手段。德尔布吕克和卢里亚早年发现的限制性核酸内切酶有能力剪断DNA的碱基序列,但这种酶也有着自身的“限制性”。它们只能剪断DNA的某个特定部分,无法根据不同的病毒基因调整目标,更不可能将被“俘获”的病毒基因片段植入自己的DNA中作为永久的历史记录。这些操作都需要比限制性核酸内切酶更为得心应手的工具。
细菌DNA中CRISPR区域的外缘还有着一系列特别的碱基序列,与这个数据库相依相伴。它们的确是细菌自身的基因,会在细菌的细胞中生产出相应的蛋白质。莫希卡知道那是一些与CRISPR免疫系统相关的酶,但他没有再为它们多费心机寻找上口的名字。因为对这些酶的具体目的和功能一无所知,它们后来被笼统地称为“与CRISPR相关的系统”(CRISPR-associated system),简称为CRISPR-Cas。依据它们在碱基序列中的排位,这些酶的基因则分别叫做“Cas1”、“Cas2”、……“Cas9”等等。
在运用基因工程手段测试CRISPR片段时,巴兰古也曾同样地剪除细菌DNA中个头最大的Cas2和Cas9基因进行实验。他看到失去Cas2基因的细菌仍然保持免疫功能,但它们的CRISPR数据库被冻结,不再能容纳新的病毒数据。而一旦没有了Cas9基因,细菌便完全丧失对病毒的免疫力。显然,这两种酶确确实实地与细菌的CRISPR“相关”,分别是维护、执行其免疫系统不可或缺的组成部分。
莫希卡的论文虽然没能得到《自然》的青睐,细菌免疫系统的发现还是在微生物学界引起注意。伯克利的微生物学家班菲尔德(Jillian Banfield)是其中之一。与莫希卡的导师相似,班菲尔德多年来满世界收集古菌和细菌,为它们分门别类和DNA测序。她早已在不同细菌、古菌中看到过很多CRISPR结构,这时更对该免疫系统如何运作着迷。2006年初的一天,她在浏览文献时读到一个叫做“RNA干扰”(RNA interference)的机制,似乎能够解释细菌挫败病毒的手段。
分子生物学家那时已经认识到细胞工厂的运作远比克里克中心法则所描述的“DNA --> RNA --> 蛋白质”转录和翻译过程更为复杂。DNA中的编码被成功转录为成熟mRNA之后,有时还是不能顺利地被翻译为蛋白质。细胞中有些酶能够拦截从细胞核中出来的mRNA,将其定点剪断而使其无法完成自己的使命。与发生在细胞核内部的基因调控类似,RNA干扰是一种阻止基因被表达成蛋白质而起作用的机制。4细菌的CRISPR和与之相关的Cas酶完全有可能是以这个途径挫败病毒的侵蚀。
班菲尔德意识到这已经超越自己作为一个微生物学家的知识积累。她需要一位熟谙RNA的专家合作才有可能在分子层次理解细菌的免疫系统。虽然伯克利人才济济,她却也不清楚那里是否有合适的人选。于是,她在计算机上打开新世纪科研人员必不可少的工具:谷歌公司开发的互联网搜索引擎。敲入“伯克利”和“RNA干扰”两个关键词后,谷歌只找出为数不多的几条结果。排在首位的是一位名叫杜德娜(Jennifer Doudna)的年轻教授。她的实验室擅长于解析生物大分子的结构,刚刚发表了一篇论文解释在RNA干扰中作为剪刀的一种酶的结构和功能。班菲尔德如获至宝,立刻给杜德娜打电话约谈,希望能激起她对CRISPR的兴趣。
杜德娜接听完这个意外的电话后也打开了谷歌的搜索引擎。她从未听说过那个奇怪的称呼,只得求助于互联网。当她看到谷歌给出“簇状规则间隔的短回文重复序列”这么一个更为莫名其妙的名字后只得摇头苦笑。
几天后,47岁的班菲尔德与42岁的杜德娜在校园内一间咖啡厅里会面。同为女性生物学家的两人一见如故。班菲尔德拿出笔记本,画出几个简单的草图为杜德娜详细解释细菌的DNA以及其中的CRISPR。杜德娜更是被班菲尔德的热情感染,几乎不假思索地同意加入这个引人入胜新领域的合作。她正可以发挥自己的特长,由解析Cas蛋白质的结构入手揭开这些酶在RNA干扰中扮演的角色。
巴兰古和霍瓦特的论文在那之后不久面世。虽然关心甚至知悉CRISPR的生物学家仍然凤毛麟角,他们都为莫希卡对细菌免疫系统的猜测有了实验证明而振奋。班菲尔德与巴兰古电话联系后决定组织学术会议,将CRISPR进一步推向科研前沿。在班菲尔德和杜德娜的安排下,第一届CRISPR会议2008年7月底在伯克利召开。莫希卡受邀从西班牙远道而来发表主题演讲。虽然与会者只有区区35人,每个人都兴致勃勃地感受到一个新时代的来临。
然而就在那年年底,美国西北大学两位研究员在实验中证明CRISPR免疫系统在实施其防御功能是并不是在干扰来自病毒的RNA。它们的目标直接就是入侵病毒的DNA。班菲尔德得知后颇为懊恼。这个结果说明CRISPR与RNA干扰——杜德娜的专长——其实不相干。但被“骗”入局的杜德娜却不以为忤。她与一些分子生物学家已经从这个试验结果中看到一个比细菌免疫系统更为重要和广阔的前景。
如果细菌的Cas酶可以在CRISPR数据库中的数据指挥下定点、精确地剪切病毒的DNA,那么通过人为修改数据库中的数据,人类就应该能够随心所欲地指挥这些酶对DNA施行剪切和修补手术。与当年伯格、伯耶和科恩等人利用细菌的限制性核酸内切酶进行基因重组一样,细菌的CRISPR可以为人类编辑基因、修改生命的天书提供一个有效的工具。
(待续)
third domain
crisp
Danisco
RNA干扰现象由美国的生物学家梅洛(Craig Mello)和法尔(Andrew Fire)在1998年发现。他们在2006年因此获得诺贝尔生理学或医学奖。