1998年12月,桑格中心的苏尔斯顿和美国的合作者宣布他们已经完成“秀丽隐杆线虫”(Caenorhabditis elegans)基因组的测序。那是文特尔公开挑战的半年后,正值狼藉一片的官方人类基因组计划终于有一个扬眉吐气的好消息。
秀丽隐杆线虫是一种藏身于土壤中以细菌为食的蠕虫。它们晶莹剔透,体长不过一毫米。1960年代后期,剑桥分子生物学实验室的克里克和布伦纳在破解生命的编码和遗传的中心法则后将注意力转向动物的神经系统。那时生物实验室中最常见的小生物是源自摩尔根的果蝇。不过果蝇虽小,五脏俱全,神经细胞的数目多达以10万计。布伦纳寻寻觅觅,最后选中了体格与果蝇不相上下,生理结构却简单得多的秀丽隐杆线虫。这小蠕虫全身的细胞总共只有600来个。虽然其中约一半属于神经细胞,那也是一个易于研究的简单神经系统。而且秀丽隐杆线虫比果蝇还容易豢养,短短几天就能繁殖一代,正是研究遗传的优秀样本。在布伦纳等人30多年的精心培育和发掘之下,秀丽隐杆线虫逐渐成为生物学实验室中常备的“模式生物”1,栖身孟德尔的豌豆、摩尔根的果蝇以及德尔布吕克和卢里亚的噬菌体行列。
在加入人类基因组计划之前,苏尔斯顿作为剑桥分子生物学实验室的年轻研究员曾在布伦纳的指导下为这个不起眼的小虫子倾注十多年的心血。他在1993年成为新开张的桑格中心第一任负责人,自然而然地选取自己最为熟悉的秀丽隐杆线虫作为基因组测序的试点项目,美其名曰“蠕虫基因组计划”2。短短五年后,他们顺利完成秀丽隐杆线虫的基因组测序,一鸣惊人。那仅仅是文特尔和史密斯完成流感嗜血杆菌基因组测序、在分子生物学界造成极大轰动的三年半后。他们的正规军对手不甘落后,展示出后来居上的实力。
虽然总共只有600个细胞,秀丽隐杆线虫是活生生的动物,与只是单细胞的流感嗜血杆菌有着天壤之别。它们有嘴巴、皮肤、肌肉、肠道、性腺等器官,能够自主地爬行、进食消化以及交配繁殖。相应地,秀丽隐杆线虫的基因组由9千7百万碱基对组成,其中有19000来个基因,与流感嗜血杆菌的180万碱基对、1743个基因相比不可同日而语。桑格中心的成就因而是基因测序更上一层楼的里程碑:人类完全掌握的第一个动物基因组。
同为动物,秀丽隐杆线虫也比流感嗜血杆菌更接近人类。它们近两万个基因中约三分之一与人类的基因相同或高度相似,其中甚至存在着与人类老年痴呆症和一些癌症息息相关的基因。因此,秀丽隐杆线虫基因组的测序对人类而言有着更大的价值,为了解、研究这些顽症提供新的线索和途径。因为这一贡献,苏尔斯顿、布伦纳和他们的合作者霍维茨(Robert Horvitz)一起在四年后赢得2002年的诺贝尔生理学或医学奖。
当然,与文特尔和史密斯为流感嗜血杆菌基因组测序一样,苏尔斯顿为秀丽隐杆线虫基因组测序也还是醉翁之意不在酒。这一切都还是在为人类基因组测序所做的预演。仰仗着惠康基金会的财力支持,苏尔斯顿与文特尔一样大举购买最先进的自动测序机,将桑格中心建造成测序效率首屈一指的工业化实验室。的确,他们为秀丽隐杆线虫基因组测序的代价稍低于半美元一个碱基对,比塞莱拉公司测序流感嗜血杆菌基因组时还略胜一筹。
尤其显著的是桑格中心采取的是传统的测序方法,没有文特尔霰弹枪测序法的“投机取巧”。他们的成功无疑为官方的人类基因组计划雪中送炭。美国国立卫生研究院也随之学习英国惠康基金会的好榜样为美国的几个测序中心追加资助,大大鼓舞正规部队的信心和士气。
但是他们的领先地位只持续了九个月,文特尔在1999年9月17日又宣布塞莱拉公司完成果蝇基因组的测序。那是他们的又一个试点项目,主旨在回应霰弹枪测序法能否对付更大更复杂基因组的质疑。果蝇DNA碱基对数目几乎是秀丽隐杆线虫的两倍,霰弹枪测序法又一次经受了考验。虽然在流感嗜血杆菌和秀丽隐杆线虫之后,果蝇的基因组不再具备同样的里程碑意义,但这一成就的象征性含义也不容忽视。
摩尔根和他的果蝇曾经几乎是现代遗传学的代名词,果蝇因而在生物实验室里享有无与伦比的地位。早在1911年,摩尔根的学生布里奇斯和斯图尔特文在苍蝇屋中竖起一根“图腾柱”,以其四个面代表果蝇的四根染色体,在上面标记他们辨识出的果蝇基因位置。那根简单的柱子意味着基因不再只是一个虚无缥缈的抽象概念,有了在染色体上的真实物理存在。近一个世纪之后,那根图腾柱终于让位给远为细致、精确的果蝇基因组中多达1.8亿个的碱基对。
这一次,文特尔没有继续他那自我放逐式的单打独斗,选择与属于正规军的伯克利科学家合作。他们只用了不到一年时间即完成这个“果蝇基因组计划”。文特尔更是轻松地表示:“哦,顺便提一句。我们已经开始了人类DNA的测序。看起来那里的技术问题不会比为果蝇测序更为困难。”
两个月后,又轮到柯林斯的人类基因组计划赢得媒体的关注。遵从百慕大原则,他们的各个测序中心每天将过去24小时的新测序结果注入国立卫生研究院专设的基因数据库3,无偿地与所有同行分享。1999年11月17日注入的新序列中有一个不足为奇的鸟嘌呤(G)却非同寻常。那是人类基因组计划测得的第10亿个碱基对,标志着他们已经完成人类基因组的三分之一。趁着年末的节日气氛,国立卫生研究院特地举办隆重的庆祝和嘉奖仪式。
那的确是一个值得他们骄傲的时刻。柯林斯的整顿已经带来实际的效果,桑格中心和美国的几个大型测序中心都已装备上与塞莱拉拥有的同型号自动测序机,效率大为提高。12月2日,《自然》杂志报道桑格中心完成人类第22号染色体的全部测序。在按照从大到小顺序依次标号的人类染色体中,22号染色体最小,其中的DNA只占人类基因组的1.1%。但作为第一根被完整测序的人类染色体,这个新闻也再度引起轰动。布里奇斯和斯图尔特文地下有知,也一定会欢呼这个新图腾柱的揭幕。
道高一尺魔高一丈。文特尔的塞莱拉公司并不按照百慕大原则的要求每天公布新测的碱基序列。他们的实际进度因而不像人类基因组计划那么一目了然。但在那个1999年的年底,塞莱拉已经达到一个月测定12亿碱基对的测序速度,继续一马当先。人类基因组30亿碱基对的完成已经指日可待。面对这一严峻的形势,柯林斯不得不带着己方一干人员在12月29日与文特尔及其团队展开正式谈判,寻求双方和解、合作的可能性。但因为文特尔坚持塞莱拉公司保留其数据在一定时间内的知识产权保护,他们没能达成协议。那是奉行无偿共享百慕大原则的人类基因组计划无法接受的条件。
整整100年前,20世纪的来临曾经伴随着孟德尔豌豆实验的重新发现和普朗克量子概念的提出。短短几年后,爱因斯坦通过布朗运动证明原子和分子的存在并奠定量子的物理基础。几乎同时,生物遗传中的“量子”——孟德尔的遗传因子——被正式命名为基因。在随后的世纪之初,物理学家忙于创建分子、原子及原子核的量子理论。摩尔根和他苍蝇屋小伙伴们则率先在染色体基础上认识基因。第二次世界大战之后,日益成熟的量子力学不仅完成物理科学的革命,也以微电子器件等形式大踏步进入实用领域,为人类日常生活带来翻天覆地的变迁。新一代的物理学家与生物学家精诚合作,利用X射线衍射实验和基于量子力学的理论推演揭示脱氧核糖核酸的双螺旋结构,将基因准确地定位于其中的碱基对序列编码。实用的基因工程随之应运而生,根本性地颠覆与人类生存和健康息息相关的食物和医药产业。在这个惊心动魄的世纪终于降下帷幕之时,又一个巨大的变革即将来临。由病毒到细菌到线虫到果蝇,人类正日益逼近那储存在双螺旋结构之中、操纵自身生长和命运的编码。
随着新世纪、新千禧的到来,人类基因组测序竞赛进入白热化状态。2000年3月9日,人类基因组计划的数据库里出现了他们测得的第20亿个字母。那是一个“T”,即胸腺嘧啶。他们曾经花了四年的时间完成第一个10亿碱基对的测序。这第二个10亿却只用了四个月。
但在那两个月前,文特尔已经先声夺人地宣布塞莱拉完成90%的人类基因组测序,剩下的工作只是利用计算机将测好的DNA碎片重新组装成完整的碱基序列。当然那也是一个艰巨的任务。富有远见的文特尔在不惜成本地大批量购买自动测序机之后还花费巨资置办了当时最为先进的超级计算机,全力以赴地展开最后的冲刺。
在紧锣密鼓的竞赛背后,柯林斯与文特尔的谈判毫无进展。两个团队的矛盾愈演愈烈,发展为公开地在媒体上相互指责攻击,令科学界汗颜。当然更让他们担心的还是一路领先的文特尔随时可能宣布大功告成,让已经消耗纳税人30亿美元的官方团队颜面尽失,并可能演变为政治丑闻。这个迫在眉睫的威胁甚至惊动政府的最高元首。克林顿总统在一份简报上毫不含糊地写下简单的批语“解决它……让这些人一起合作”4。
挺身而出为总统解决这个难题的是几乎被遗忘的能源部人类基因组计划负责人。他当即将文特尔和柯林斯一起请到自己家里,在没有随从助手、同行、律师、记者干扰的清静中品酒聊天。功夫不负有心人。文特尔和柯林斯虽然没能答应“一起合作”,但至少同意为顾全大局停止互相攻击。他们还达成协议,谁也不抢先宣布人类基因组测序的完成。双方可以共享殊荣。
一个多月后的2000年6月26日上午,克林顿总统在白宫举行记者招待会,意气风发地宣布人类基因组计划圆满完成。他回顾200来年前的探险家刘易斯和克拉克远征美国大西北考察、绘制地图的壮举后指出:今天“我们在这里庆祝整个人类基因组第一次考察的完成。毫无疑问,这是人类制作出的最为重要、最为奇妙的地图。”5在讲话中,他不偏不倚地同时对柯林斯和文特尔表示祝贺和感谢。
大西洋彼岸的英国首相布莱尔(Tony Blair)也通过卫星连线出席会议,热情洋溢地宣布这是人类进入21世纪后的第一个伟大科技胜利。他的现身绝非偶然,象征着人类基因组计划的国际合作性质,尤其是桑格中心独力完成三分之一测序任务的突出贡献。
柯林斯和文特尔随后分别致辞。柯林斯自豪地指出人类基因组计划不仅提前完成任务,而且实际花费低于预算。这在政府资助的大科学项目中可谓绝无仅有。文特尔则着意强调私营公司在这个项目中扮演的不可或缺角色。
主席台下,沃森以一袭白色西装颇为醒目地坐在前排。他的身边簇拥着美国各测序中心的头面人物和其他知名生物学家。沃森终究没能切身地“让自己的科学生涯涵盖从双螺旋到人类基因组中30亿个阶梯的历程”,但作为人类基因组计划第一任负责人,他以由衷的喜悦分享着自己曾经呕心沥血的果实。
只是在那一片欢欣鼓舞之中,柯林斯、文特尔、沃森和其他在座的生物学家们都不是很明白他们在庆祝什么。
克林顿没有具体地解释他所称完成人类基因组“第一次考察”的确切范畴,但无论以什么标准都没法得出人类基因组测序在2000年6月26日已经完成的结论。事实上,所有生物学家都对这个日子百思不得其解。他们猜测那不过是克林顿总统和布莱尔首相各自繁忙日程中可以找出的一个共同空档。两位元首在那天提前宣布胜利无非是出于政治性的考量。在那个时刻,还找不到一篇描述整个人类基因组的正式论文。
那还要等到足足八个月后的2001年2月。因为两个团队之间依然存在的隔阂和积怨,他们的论文没有依惯例同时发表在同一期刊物上。6官方人类基因组计划的论文发表在德高望重的《自然》杂志,文特尔则选择他更偏爱的《科学》。为突出论文的划时代意义,两本杂志都专门设计了封面。《自然》采用大量普通人照片衬托出一个DNA的双螺旋结构,细心的读者可以从中找出双螺旋发现者沃森和克里克的肖像。《科学》的封面简洁得多,以五个不同种族、年龄和性别的人像分别代表为塞莱拉公司捐献血样的五位志愿者,外加一位象征未来的婴儿。
《自然》和《科学》的主旨均为发表描述最新科学发现的快报,其中论文以短小精悍言简意赅见长。这两篇人类基因组测序的论文却鹤立鸡群,各自几乎占满该期杂志的全部篇幅。然而纵然洋洋洒洒,它们在克林顿总统和布莱尔首相高调宣布人类基因组测序已然完成的大半年后仍旧未能实际地支持那个结论。
与克林顿所谓“第一次考察”最为接近的也许是官方人类基因组在文特尔的压力下改变策略的“工作草图”目标,即在人类基因组序列中容忍一定空隙和差错的不完全结果。但那是一个原定将在2001年底完成的计划,已经不再能应付文特尔咄咄逼人的节奏。于是,“工作草图”在2000年初被悄然降级为“粗糙草图”7。即便如此,在克林顿和布莱尔宣布成功的大半年后,正规部队方面的“粗糙草图”也还未能测定、组装完毕。
采取霰弹枪测序法的塞莱拉公司测定的序列远多于官方的成绩。但他们的结果没有按照百慕大原则的要求立即公开。相当一部分关键数据依然被牢牢地锁在塞莱拉公司私有的数据库里,只有付费的用户才能一睹为快。为了发表文特尔领衔的那篇论文,《科学》杂志不得不打破业界惯例开绿灯,没有因为论文中引用尚未完全公开的数据拒稿。
对于关注人类基因组测序这场空前绝后科技竞赛的科学家来说,克林顿总统在记者招待会上的讲话以及大半年后《自然》和《科学》同时发表的两篇论文意味着一个虎头蛇尾的失望。它们强烈暗示柯林斯的正规军和文特尔的游击队最终不分胜负,只是打了个平手。这当然是柯林斯和文特尔在政府官员斡旋下达成妥协的效果。但从私下到公开场合,两支队伍之间旷日持久的敌意并未消退,反而愈演愈烈。
文特尔理所当然地坚持自己是这场竞争中的实际胜利者。塞莱拉私营数据库中储存有大量公开数据库里没有的人类基因组碱基对数据,无可辩驳地证明他们的领先地位。但在柯林斯一方看来,那正好表明刚刚发生的绝非一场公平的竞争。遵从百慕大原则,官方人类基因组计划自始至终都及时公开自己的测序结果。这样,文特尔和塞莱拉的科研人员总能够及时获知对手每天的进展,同时将对方所测的序列并入自己的数据库。因此,塞莱拉高价出售的数据库其实是两个团队成果的合集。其中一部分只是将他人免费提供的数据重新包装后转售给客户牟取暴利。反之,塞莱拉公司没有礼尚往来。他们置百慕大原则若罔闻,不及时公开自己的测序成果。在日益激烈的测序竞赛中,他们显然占有不公正的优势。
更有甚者,苏尔斯顿在仔细分析塞莱拉团队的《科学》论文中数据后发现一个暗藏的玄机。正如很多生物学家所预测,文特尔采取霰弹枪测序法得到的数据存在太多空隙和漏洞,无法重新组装成完整的碱基对序列。他们其实是偷偷地参考人类基因组计划公开的测序结果才完成最后的组装。大为震惊的苏尔斯顿立即发表论文,公开揭露对手的暗盘“作弊”。
面对苏尔斯顿的指控,文特尔立即撰文反驳、辩解。不过那时的文特尔已经面临更严重的威胁,不再有心思纠缠他心目中胜负已决的测序竞赛。塞莱拉的“胜利”没能带来预想的经济利益,反而危机重重。柯林斯的人类基因组计划依然在紧锣密鼓地继续测序、组装,急速缩小差距。一旦他们赶超,人类基因组的全部数据就会在国立卫生研究院的共享数据库中供人免费提取,塞莱拉赖以生存的数据库不再具备竞争优势。为了另谋出路,文特尔引导公司转向进行老鼠等常见实验生物的基因组测序工作,试图通过不同物种基因对比提高数据库的价值。无奈时过境迁,那时大量模仿塞莱拉的新公司已经涌现,都在大张旗鼓地展开各种动物、植物及微生物的测序。塞莱拉在竞争日益激烈的市场中已经不再具备原有的绝对优势。随着公司业绩的每况愈下。文特尔被迫在2002年1月辞去总裁职务,在生物科技的商业大潮中黯然而退。
2003年4月25日,人类基因组计划发布新闻,再次宣布人类基因组测序项目的大功告成。那是克林顿和布莱尔记者招待会的近三年后。这一次,他们不再有政府首脑的捧场,不再有镁光灯的追逐,也不再有文特尔。
那是一个特别的日子。整整50年前,沃森和克里克的双螺旋论文在这一天问世,开启遗传学和分子生物学的新纪元。柯林斯早在三年前选定这个日子作为实际完成人类基因组计划的期限,以凸显“从双螺旋到人类基因组中30亿个阶梯”的历史意义。沃森十分感慨地写道:“如果有人在1953年宣称整个人类基因组会在50年内被完全测序,克里克和我肯定会大笑不止,然后再为他们加买一杯酒。”
那年,87岁的克里克垂垂老矣。他在一年后因癌症辞世。相对年轻的沃森刚过75,仍然在他心爱的冷泉港实验室担任着主任职务。其实,那个半世纪前能让他和克里克失笑的醉汉胡言在2003年的这一天也仍然没能兑现。即使那已经是第二次的官方郑重宣布,人类的基因组还是没有被“完全测序”。
但这一次,至少柯林斯为他的“大功告成”给出清晰的标准。在那一天,人类基因组中92%的碱基对已经严格测定,其中差错的可能被降至万分之一以下。另外那8%属于不参与定义蛋白质的垃圾DNA,在生命遗传过程中无关紧要。那些序列有着极高的重复率,很难在当时的技术条件下彻底破解。继续钻这个牛角尖会是一个代价昂贵且得不偿失的愚蠢行为,不如将这个难题留给技术进步之后的未来。正是出于这一考量,柯林斯在2003年4月25日正式宣布人类基因组测序的“完成”。
五年后,已经在国家人类基因组研究所担任15年主任的柯林斯功成身退。但仅仅一年后,他的仕途再上一层楼,在2009年担任国立卫生研究院主任,直至2021年底退休。
那时,人类基因组的测序还在继续着,只是早已完全不为人所知。2022年4月1日,人类基因组计划大功告成的20年后,其后续组织终于宣布剩余的8%碱基对也已经被完全测序。人类DNA的30亿零5千5百万个碱基对终于首尾相连,中间不再留有未知的空隙。
历经70年的探索,人类终于能够完整无缺地阅读自身生命的编码。
(待续)
model organism
Worm Genome Project
GenBank
Fix it... make these guys work together
We are here to celebrate the completion of the first survey of the entire human genome. Without a doubt, this is the most important, most wondrous map ever produced by humankind.
比如沃森和克里克、威尔金斯、富兰克林当年发现双螺旋结构的三篇论文
rough draft