2011年10月5日,苹果公司1创始人和总裁、为全世界消费者带来从个人电脑到手机等一系列脍炙人口创新产品的乔布斯(Steve Jobs)在56岁时英年早逝。乔布斯生前曾经尝试各种各样的医疗和调养手段对付缠身的癌症。为了帮助医生了解病源对症下药,他特意聘请美国的测序中心为自己身体内健康细胞和癌细胞中的基因组分别进行完整的测序。但一切努力终究回天乏术。
那时,人类基因组首次测序的“大功告成”还只过去几年。克林顿总统曾经在2000年6月26日那次为时过早的白宫记者招待会上激情地阐述人类基因组测序的长远意义:“今天,我们在学习上帝创造生命时所用的语言。我们对上帝赋予的这个最神圣礼物之复杂、优美和奇特越发敬畏。有了这个深刻的新知识,人类即将获取新的、无与伦比的治病救人能力。”2十来年后,这个乐观的前景对乔布斯来说只是可望不可即。
克林顿的描述其实不十分准确。上帝创造生命时所用的语言早在40年前已经被人类认知。那是以分别代表四种碱基分子的A、C、G、T四个字母写就的序列文字。它们每三个一组构成密码子,即为对应氨基酸的词。众多的词连接起来成为句子,便是定义蛋白质的基因。通过“DNA --> RNA --> 蛋白质”的中心法则,DNA中的编码被转录、翻译成具体的蛋白质分子,演绎出生命的五彩缤纷。
人类基因组计划真正实现的是让人类终于一览无余地阅读上帝用这个语言专为人类写就的文字。那是一部约30亿8千8百万字数的鸿篇巨著,记录在人类细胞核中的23对染色体上。
不过宏伟的篇幅并不意味着同样庞大的信息量。如果说以密码子和中心法则为标志的语言设计确实优美,上帝赋予人类的这部天书的复杂和奇特却大都只属于节外生枝,实在配不上总统的夸赞。
最为奇特的是那30多亿字的洋洋洒洒中只有区区百分之二属于参与定义蛋白质的外显子,或生命编码。其余多达98%只是无意义的废话。它们或者是混杂在基因“句子”中间的内含子,或者是不同基因“句子”之间的间隔区,均为所谓的“垃圾DNA”。尤其怪异的是它们之中存在大量循环反复的无意义字词,有的甚至连续重复成千上万次。那正是人类基因组计划迟至2003年鸣金收兵时仍然未能百分之百地通读这部天书的困难所在。假如这部书果然出自上帝之手,只能说明那是一个思绪混乱语无伦次的昏庸造物主。
当然努力阅读这部巨著的科学家不会为上帝的诡异过多困惑。在达尔文出版《物种起源》的一个半世纪之后,进化论已经在生物学界深入人心。生命的演变过程中不再有上帝的位置。更为合理的猜测是那些喧宾夺主的噪音来自几十亿年生命进化的积累。物竞天择适者生存的进化不是遵从严谨定律的物理运动,其过程往往经历无以计数的偶然。其中的各种随机因素造就无意义的垃圾DNA。
真正让分子生物学家惊奇倒是人类的基因数目。在基因组被完全测序之前,他们只能一个一个地单独寻找基因,猜测人类拥有的基因少说也会有十万个。塞莱拉公司成立后最早的一笔生意就是以这个数目为自己未来的基因库估价而赢得高额合同。但当人类基因组大白天下时,所有人均诧异不已。作为最复杂的智慧生物,人类只有两万多个基因,比简单得不足挂齿的秀丽隐杆线虫多出不到两千个,彼此相差不过十分之一。
但人体内的蛋白质种类的确还是比线虫多得多。分子生物学家早已知道比德尔和塔特姆在1940年代初提出的“一个基因一个酶”假说不可靠。基因与它们定义的蛋白质并非严格一一对应。每个基因的碱基序列中混有大量的内含子,必须在由前体mRNA到成熟mRNA的剪接过程中悉数去除。这个依赖于有机分子化学反应的剪接过程无法保证每次都能准确地剪去每一个内含子并保留每一个外显子。它们在切除内含子时有时会伤及无辜,将夹在内含子中间的外显子也一并丢弃。这样即使同一个基因也能够制造出不同的成熟mRNA,彼此之间因为遗失不同数目的外显子而长短不一。这些成熟mRNA随即在细胞中生产出不同的蛋白质。于是,虽然人类基因组中的基因数目平平无奇,它们通过这样的“选择性剪接”(alternative splicing)还是可以生产出比基因本身数目多得多种类的蛋白质,满足人体生存、发育及体力和智力活动的需要。与“基因组”一样,生物体内全部蛋白质的组合也叫做“蛋白质组”(proteome)。人类蛋白质组中究竟有多少不同种类的蛋白质目前尚未确定,估计的范围从几万到几百万都有可能。
在这一系列复杂、优美和奇特的背后,最令人感叹的还是阅读这部天书实在太难了。人类基因组计划前后花费十多年功夫和将近30亿美元的代价才勉强地将它从头到尾通读一遍。“投机取巧”的塞莱拉公司的成本相对低很多,却也是以巨大的投资才换得质量和手段均颇有争议的阅读效果。他们为人类基因组第一次完整测序固然是一个历史性的成就,这在治病救人等实际运用上的价值却十分有限。
地球上的人千姿百态,每个人拥有自己的身高、相貌、体格乃至智力和性情等特征。在生命编码这部天书里,上帝为每个人准备的是不同的版本。虽然在30亿字的篇幅中不同人之间的差异微乎其微,但也正是这些细小的变异先天地操纵着个体迥异的生老病死。要通过阅读生命编码理解人与人之间的不同命运、寻找致病的基因和突变,必须对来自不同人体的各种不同版本基因组进行互相对比分析。人类基因组计划只是通读了几十亿版本中的一个,在比较鉴别上无能为力。而如果阅读每一个版本都需要几十亿美元的投资,那显然极为不现实。
因此,还在柯林斯的正规军和文特尔的游击队在测序竞赛中难解难分的20世纪末,另一场不同的测序竞赛已经悄然展开。他们有一个非常鲜明的目标,要将人类基因组测序的代价降至一千美元以下。那是30亿美元的三百万分之一。2002年时,已经从塞莱拉公司全身而退的文特尔在一次学术会议上发表主题演讲,将这个“千元基因组”3前景正式推向前台。他还自己捐献50万美元悬赏,奖励首先达到这个标准的人4。
2005年的一天,沃森突然接到电话。一家名为“454生命科学”公司5的创始人罗斯伯格(Jonathan Rothberg)希望获得沃森的首肯,为他的基因组进行测序。沃森可以这样成为基因组被测序的第一个有名有姓的人,在一定程度上实现他“从双螺旋到人类基因组中30亿个阶梯”的夙愿。沃森欣然应允,尽管那时基因组被测序第一人的桂冠其实已经名花有主。
在刚结束不久的那场轰轰烈烈的测序竞赛中,官方的人类基因组计划采用的样品是从响应广告而来的20位自愿者中选取几位的血样混合而成。他们最后测得的基因组因而不属于任何个人。塞莱拉公司的样品则来自他们征集的五位匿名自愿者之一,其身份严格保密。但出于对文特尔行事风格的了解,一直有人猜测塞莱拉所测的样品其实出自文特尔本人。在多年矢口否认后,文特尔终于在2002年接受电视新闻采访时承认自己确实是塞莱拉公司测序样品的提供者。面对基于医学实验伦理的诘问,文特尔辩解那是一个谁也无法抗拒的诱惑。
沃森也无法抗拒同样的诱惑。2007年5月31日,454生命科学公司举行记者招待会。罗斯伯格当众将一个储存有沃森基因组数据的计算机硬盘交到沃森手里,标志历史上第一次专门针对个人的基因组测序圆满完成。
在那半年前,文特尔终于将原本私有的塞莱拉公司测序结果输入国立卫生研究院的共享数据库,抢在沃森之前确保自己是公开发表基因组数据的第一人。沃森大度地表示对这一先后不以为意。他的目的只在于利用自己的名人效应帮助公众了解、理解个人基因组测序的意义。沃森为此通过所测结果现身说法。因为他的基因中某个变异表明他对调节血压药物的吸收比较慢,他据此酌情减低了每天服用该药物的剂量。他似乎也携带着能导致乳腺癌的BRCA1。好在对该基因了如指掌的金在亲自检验后告诉他不必担心,那只是一种爱尔兰血统中常见的无害变异。
不过沃森在坦荡面对自己的基因时也有所保留。虽然那时他已经79岁高龄且思路敏捷精神矍铄,他还是不愿意提前知道自己是否会走向老年痴呆。沃森的祖母曾经死于老年痴呆症,所以他至少有四分之一的可能继承了相应的基因。与其它遗传病或癌症不同,人类对老年痴呆症束手无策,还没有行之有效的治疗或预防手段。过早得知这一命运只会无谓地增加精神负担。为此,沃森预先与罗斯伯格的团队沟通,在自己获取和公开发表的基因组测序结果中将有关老年痴呆的部分实施技术性遮盖,既不示己也不示人。
通过个人基因组的测序,沃森身体力行地向公众示范如何有意识、有选择地科学认识自己的命运和健康。这个历史性时刻也是一个显著的里程碑:454生命科学公司为沃森的基因组测序只用了不到两年时间,估计成本为一百万美元左右。虽然那对常人而言仍然贵不堪言,那在短短几年里已经降至几十亿美元的几千分之一。
这一成就并非来自财大气粗的国立卫生研究院,也没有仰仗政府的投资。它与文特尔当年的挑战一样根源于在美国根深蒂固的个人创业精神。
1999年时,罗斯伯格的第二个孩子刚出生就因为呼吸困难被送进抢救室。他在外面心急如焚,也只能眼睁睁地看着医生手忙脚乱,无法迅速诊断出病因。八年前,还是耶鲁大学研究生的罗斯伯格已经开始创业生涯,开办了一家那时尚属凤毛麟角的基因组公司。他在医院里焦头烂额时突发奇想:如果每个医院都能拥有快速的测序设备,让医生在短短几分钟内获取病人的全部基因组,他们就会有能力在第一时间诊断出可能的病症,挽救无数生命。但这在一次测序需要很多年的世纪末只能是痴人说梦。
儿子有惊无险,很快转危为安。但这个快速、廉价测序仪器的念头也在罗斯伯格的脑子里扎了根。他那时正在研读时髦的计算机芯片技术,突然茅塞顿开。生物科学和计算机的技术似乎毫不相干。但假如他能模仿电子技术将DNA测序微型化,应该也能像电子元件一样大大提高测序的效率。
一年后,罗斯伯格创办454生命科学公司,开发在与计算机芯片类似的半导体晶片上为DNA测序的新技术。这样的芯片上有成百万计的纳米尺度的空隙,可以在其中预先置放已知序列的碱基分子链作为探针。被测的样品中如果与某个探针的碱基序列互补便会与之结合被固定在该空隙处。它们携带的荧光原子可以向探测的激光报告自己被固定的位置。因为该处探针的序列是已知的,样品的序列也随之昭然若揭。在这个俗称“DNA芯片”6的微型装置上,数以百万计的探针同时探测,能在极短时间内完成样品碱基序列的解析。这恰好与电子元件以大规模并行运作获得低价格和高效率的手段异曲同工。
他们在短短几年内获得成功。为谋取轰动性的广告效应,罗斯伯格邀请沃森作为第一个接受新技术测序的“试验品”,果然旗开得胜。在那之前,柯林斯和文特尔两个团队的测序采用的都还是桑格在1977年发现的方法。他们使用的甚至都是同样的自动测序机。454生命科学公司为沃森的测序则完全不同,标志着超越桑格的“下一代DNA测序技术”7登上历史舞台。柯林斯为此赞誉沃森是“我们其余人中的第一个”8,既含蓄地对文特尔所作所为表示不屑,又肯定沃森也确实有他当之无愧的“第一”:下一代技术测序的第一人。更重要的是,柯林斯预示沃森不会只是特例,个人基因组测序的新时代已经来到。
的确,沃森的测序结果公布仅四个月后,远在地球另一边的中国即宣布又一个基因组的成功测序。
早在美国的人类基因组计划还处于起步阶段的1990年代初,中国已经在关注这个科技新动向。在中国的国家自然科学基金会和其它政府部门支持下,“华大基因研究院”9于1999年正式成立10。他们随即参与人类基因组计划的国际合作,承担并完成其中约百分之一的测序任务。中国因而栖身美国、英国、法国、德国和日本的行列,拥有自己的测序能力。2007年10月11日,刚从北京搬迁到深圳的华大基因宣布他们独立完成第一个中国人的完整基因组图谱。他们没有披露被测序者的身份,只表明那是一名汉族人士。与文特尔的情形类似,也有人猜测这位被称为“炎黄一号”的匿名中国人可能就是华大基因的创始人之一、遗传学专家杨焕明。
与“炎黄一号”几乎同时,美国一家测序中心为当地一名白人中年妇女完成了基因组测序。那是一位癌症患者,本人在测序结果揭晓前已经过世。随后,非州人、韩国人也相继加入被测序的行列。华大基因还为沙特阿拉伯的一位王子11测序,进一步增加被测序基因组的种族多样性。不久,一个国际性的“千人基因组计划”12应运而生,广泛搜集世界各地不同人种、性别、年龄和健康状况的个人基因组数据。
但那时每个基因组的测序还是需要近一百万美元的投入。只有具医学意义的志愿者、近水楼台的生物学界名流以及腰缠万贯的王子和富豪才可能捷足先登。在千元基因组到来之前,这还是极少数人的游戏。
但在克林顿总统豪言壮语之后的21世纪初,基因的概念已经深入人心。人们无论贫富贵贱都迫切希望能一瞥上帝为自己专门准备的天书。对于无孔不入的创业者来说,那也是一个难得的商机。
在世纪之交,位于旧金山市以南的硅谷已经以雨后春笋般13的高科技创新公司闻名于世。那里不仅有老牌的苹果公司,还有以互联网搜索技术著称的“谷歌”14。2006年时,一家名为“23和我”的公司在谷歌的隔壁出现。这个奇怪的名字来源于人类的23对染色体。显然,这不是一家与谷歌同类的互联网公司。他们关注的正是那个尚待开发的新市场:面向普通消费者的个人基因组服务。
23和我其实不是最早进入这个市场的弄潮儿。在它之前和同时已经有一些类似的创业公司出现。但23和我得天独厚,在投资和市场宣传上得到谷歌的大力支持和扶助。15他们携手合作,绘制一个所有人可以像搜索互联网一样“谷歌”自己基因的未来图景。很快,23和我在美国家喻户晓,一蹴而成普通人基因测序的代名词。
为了将测序费用控制在大众消费者人能够承担的范畴,23和我及其它相似的公司采取的是另一种“投机取巧”的测序方式。人类基因组虽然庞杂如30亿个碱基对,它们在每个人体中几乎千篇一律,只会在大约一百万个位置上可能出现差异。只要针对这些叫做“单核苷酸多态性”(single nucleotide polymorphism;简称SNP)的位置进行测序,就能有效地得到被测者的特定基因。这样,23和我等公司可以相当迅速地完成为每位顾客的测序,其价格也不过几百美元。他们的结果固然不能百分之百地涵盖全部的基因组,对通常人而言已经能满足需要。因此,他们成为市场上最早的千元基因组服务公司。
一时间,个人测定自己的基因蔚然成风。人们通过基因测序不仅可以了解自己的遗传病风险,还可以寻根问祖,找到过去一无所知的先辈传承和亲属。警察甚至凭借多年前案件中的DNA证据通过这些公司积累的基因数据库寻找到藏身良久的罪犯。
在这新一场的大浪淘沙中,经典的桑格测序法终于销声匿迹。无论是华大基因在中国为炎黄一号的完整测序,还是23和我等公司的商业运作,他们采用的都是高效、廉价的下一代测序技术。不过罗斯伯格的454生物科学公司没能保持领先地位,取而代之的是一家同样在世纪之交脱颖而出的“因美纳公司”16。他们制造的下一代测序机器迅速占据市场,在美国各大学的测序中心、中国的华大基因以及23和我等商业公司中大显身手。
伴随着市场的强力推动,因美纳公司测序机器的效率也逐年增高,成本急剧回落。当乔布斯在2000年代后期为自己的基因组完整测序时,他支付的费用是十万美元。那已经是两三年前17沃森测序时的十分之一。当然这个代价依然可观。那时,在轰轰烈烈的单核苷酸多态性部分测序的潮流背后,全世界实现基因组完整测序的还只有20人。
但罗斯伯格的远见也正在成为现实。计算机行业有一个引以为傲的“摩尔定律”18:因为微型化带来的技术更新,电子元件的性能大约每两年增加一倍,其价格也相应地会下降一半。那是与细胞分裂式指数增长同样急剧的指数下跌速度。然而微型化的基因芯片甚至青出于蓝而胜于蓝:基因组测序代价的下降速度远远超过摩尔定律,在不久前的2018年突破一千美元大关。
因美纳公司和其它业界人员当然不会以此满足。他们已经锁定下一个目标:将人类基因组完整测序的代价降至一百美元以下。那时,罗斯伯格的梦想——每个诊所、每个医生都能拥有一台及时为病人基因组测序的仪器——终将成真。
同时,正如乔布斯的个人悲剧所示,单纯地阅读人类基因组并不能保证治病救人的成功。人类是最有创造性的智慧生物。当上帝或生命的进化所赋予的生命编码中存在明显错漏,导致痛苦乃至致命的疾病时,已经掌握了这门语言的人类是否能够依赖自己的聪明才智主动出击,修改、编辑这部天书?
(待续)
Apple Inc.
Today, we are learning the language in which God created life. We are gaining ever more awe for the complexity, the beauty, the wonder of God's most divine and sacred gift. With this profound new knowledge, humankind is on the verge of gaining immense, new power to heal.
$1,000 genome
这个奖项后来被另外的富豪们合力改设成奖金高达一千万美元的“X大奖”(Archon X Prize),但最终不了了之。
454 Life Sciences;公司名字中的“454”对创始人有特殊含义,但其意义从未公开过。
DNA chip
next-generation DNA sequencing
the first of the rest of us
英文名字是“北京基因组研究院”(Beijing Genomics Institute)
严格来说,华大基因成立于20世纪第99年第9月第9天的9点9分9秒。
Ahmed bin Abdulaziz Al Saud
1000 Genomes Project
23andMe
23和我的创始人之一沃西基(Anne Wojcicki)是谷歌创始人之一布林(Sergey Brin)的女朋友和后来的妻子。
Illumina, Inc.
乔布斯测序的具体年份未知。
Moore's law