模拟活细胞的一切
生物学家首度使用计算机模型,
完整重现了一个单细胞生物体的全部生命过程,为探寻生命的奥秘提供了全新的强大工具。
撰文 马库斯 · W · 科弗特(Markus W. Covert) 翻译 徐海燕
一个可用的活细胞计算机模型,即使相对简略、不完全准确,也能成为非常有用的工具。在耗费大量的时间和金钱进行真实的实验之前,生物学家可以通过这个模型检验思路。譬如说,新药研发人员可以从中找出,哪些分子被抑制后,能对细菌产生最严重的破坏,从而加快寻找新抗生素的步伐。
像我这样的生物工程学家,则可以通过移植和重组虚拟微生物中的基因,设计具有特殊性质的新菌株——比如被特定病毒感染后发出荧光,或者能够从石油中提取氢气的微生物,而不必冒险去改造真正的微生物。
如果我们最终能建立足够复杂、可以模拟人类细胞的模型,将会彻底转变医学研究的现状,因为许多种人类细胞无法在体外培养,许多实验目前无法进行,而这些实验将能在活细胞的计算机模型中开展。
活细胞行使正常功能所需的各种化学反应和物理过程错综复杂,如果没有一个可行的办法来理清头绪,这一切似乎都只是个美梦。我在斯坦福大学的实验室和其他实验室进行过多次尝试,但都遇到了障碍,有时则彻底失败。
然而,在那个冬天的傍晚,我慢慢蹬着自行车穿过校园,想起自己最近对单个活细胞的成像记录工作。就在那一刻,我想到了一个办法,可以建立一个实际可用的模拟细胞:选择世界上最简单的单细胞生物,一种叫做生殖支原体(Mycoplasma genitalium)的微生物,为其建立单个细胞的模型。
只对一个细胞进行模拟,原则上足以将问题简化,使我们可以重现该细胞内所有已知的生物过程:从每一圈蜿蜒缠绕着的DNA的解开、DNA中每一条信息向RNA的转录,到根据这些RNA的指示、制造每一种酶和其他蛋白,以及这些反应物之间的每种相互作用,最终使细胞生长,并分裂为两个子细胞。细胞的数字模型,几乎可以从最基本的层面,模拟出整个单细胞的全部生命活动。
从前的研究人员都试图模拟细胞的整个集落,因为几乎所有关于细胞行为的数据,都是从群体、而非单个细胞中收集得来的。然而,生物科技和计算科学的进步,让单细胞研究变得比以前简单得多了。我意识到,现在我们有了足够的工具去尝试一种不同的方法。
我脑中思绪奔腾。刚一到家,我就开始草拟模拟程序的计划。第二天早晨,我开始编写软件代码,模拟活的微生物细胞内的一两个生化过程。一周以后,我已经完成了几个模块原型,每个原型都以代码表达了一个特定的细胞过程。这些模块生成的结果,看起来很符合实际情况。
我向一些生物学家展示了这一工作,他们中的大多数人觉得我疯了。但我感到,这是一个正确的方向。另外两位出色而勇敢的研究生乔纳森·R·卡尔(Jonathan R. Karr)和贾尤迪塔·C·桑维(Jayodita C. Sanghvi)也看到了这个方法的潜力,同意和我一起进行这一项目。
要完成单个细胞的模型,我们需要制造几十个类似模块,从近千篇科学文献中搜索生物化学数据,并用这些数值来限制和调整数千个参数,如酶和靶分子结合的紧密度,读取遗传信息的蛋白在DNA双螺旋上互相碰撞、以至脱落的频率等。
当时的我认为,即使有勤勉的合作者和研究生的帮助,这个项目也需要数年时间才会有所产出,但我也预感到它最终会成功。除了去尝试,我们别无他法。
巨大的挑战
我们一面遥望顶峰,一面从最早尝试构建生命模型的先行者那里寻找灵感。1984年,还在耶鲁大学的哈罗德·莫罗维兹(Harold Morowitz)就提出了一个总体的方向。他当时指出,支原体是生物学家能培养的最简单的微生物,也是一个合适的起步点。
支原体相当小,也相对简单,有两种支原体还能引起人类疾病:一种是通过性传播、在阴道和尿道中繁殖的寄生性生殖支原体;还有一种是肺炎支原体,能导致“行走肺炎”(walking pneumonia,通常指代支原体肺炎,患者不需住院治疗,能行能走,故有此称谓;出于同样的原因,一般人认为行走肺炎并不严重,但事实并非如此)。任何一种致病支原体的模型,在医学上都有巨大用途,也能成为探寻基础生物学奥秘的工具。
莫罗维兹计划的第一步,是对选定微生物的基因组进行测序。1995年,克雷格· 文特尔(Craig Venter)和美国基因组研究所(The Institute for Genomic Research,缩写为TIGR)的同事们已经完成了对于生殖支原体基因组的测序,它只有525个基因,而人类细胞的基因数目则超过两万。
4年后,当我在圣迭戈读研究生时,TIGR的团队得出结论认为,如果生长于营养丰富的培养基中,这些支原体只需要400个左右的基因,就足以维持生命。文特尔和同事后来成立了塞莱拉基因组公司(Celera),与美国联邦政府展开了人类基因组测序的竞赛。他们针对一种支原体,合成了其必需的全部基因,并证明这些基因能在细胞内发挥正常功能。
对于上世纪90年代末的我和其他年轻的生物学家来说,这帮人就像是齐柏林飞艇乐队( Led Zeppelin):他们推翻权威,超越生活,演奏着我们闻所未闻的音乐。文特尔乐队中的一名生物学家克莱德·哈奇森 (Clyde Hutchinson)说,如果想要知道我们对简单细胞的理解是否正确,终极的测试方法,就是为其建立计算机模型。
在生物实验室中,你只需将各个生物器件组合到一起,就能形成一个有功能的细胞,并不需要理解它们之间所有的相互作用,而用软件模拟则完全不同。
莫罗维兹也呼吁科学家以支原体的基因组数据为基础,建立细胞的数字模型。他主张,“所有能在实验室里进行的实验,都可以在计算机上进行。实际实验和模拟结果的契合程度,可以衡量分子生物学法则的完整程度”。这里所说的“分子生物学法则”,就是我们在解释DNA和细胞中其他生物分子如何相互作用、如何构成我们所知的生命时,所用的分子生物学理论。换句话说,建立细胞数字模型的过程,可以凸显分子生物学理论忽略了哪些细胞元件、缺失了哪些相互作用。
整合破碎的数据
虽然高通量测序仪和自动实验设备已大大加快了寻找这些“缺口”的过程,但海量的DNA序列、不胜枚举的基因表达模式,是不会将细胞内错综复杂的分子机制直接告诉我们的。遗传学先驱悉尼·布伦纳(Sydney Brenner)将这类工作称为“低投入、高通量、无产出”的生物学研究,因为很多时候,这些测序行为并不为求证任何假设。如果科学家想知道,一个更广大的调控系统如何让生命体正常运转,或者如何使该系统失常,单纯的测序研究几乎无法提供任何深入的洞见。
这也从一方面解释了,为什么与癌症、肥胖或糖尿病相关的基因的发现不断成为新闻头条,但这些疾病的治疗水平仍然令人失望。目前看来,只有在准确解读导致疾病的数十、甚至数百个因素的相互作用之后,才可能真正治疗这些疾病,而这些相互作用并非一目了然。
细胞建模的先驱们认识到,如果能够将包含所有细胞组分及其关系网的一整个细胞模拟出来,将能极大程度地帮助人们理解这些混乱、破碎的数据。
从本质上说,模拟整个细胞,是将关于细胞内各种过程的复杂假说,提炼成一系列缜密的数学算法。我们在学术论文中见惯了的那种漫画式的分子通路——比如“X因子如何调节Y基因”,实在太过粗犷,对于计算机模拟来说,是完全不够的。
程序员用数学方程来描述这些过程,最简单的例子之一,就是Y = aX + b。 a和b这些变量的数值,则需要根据现有知识来推断。这种对于精确度的需求,最终决定了我们需要再进行哪些实验,以填补反应速度等数值的知识空缺。
同时,只要模型的准确度得到了验证,它们显然也能替代一些实验,将节省下的昂贵实验经费,用于解决单纯的计算机模拟所无法回答的问题。并且,那些不符合预期设想的模拟实验结果,也能够帮助研究者设定工作的优先级,从而加快科学发现的步伐。事实上,计算机模型在解决“因”与“果”的关系上有着诱人的用途,因此在2001年,日本庆应义塾大学(Keio University)的富田胜(Masaru Tomita)就将全细胞模拟称为“21世纪的巨大挑战”。
我还在读研究生的时候,当时领先的细胞模型研究者的早期成果,给我留下了深刻印象(见“细胞模拟的里程碑”),我从此迷上了这个巨大挑战。即便是我建立起自己的实验室、专注于单细胞成像技术开发时,这个挑战仍在我脑海中。然后,在那年2月骑车回家的路上,我看到了一种迎战方法。
三个关键点
显然,要准确模拟一种微生物的生命周期,重现其复杂行为,并从中得到新的生物学发现,我们必须解决三个问题。
首先,我们需要将能量、营养成分与反应产物在细胞中的流动(也就是细胞的代谢),以及DNA、RNA和蛋白质的合成和分解,还有众多酶的活性等细胞的所有重要功能,编码成数学公式和软件算法。其次,我们必须将这些功能整合进一个整体框架。而最后一个问题,从很多角度来说,都是最难的:对模型中1 700多个参数分别设定上下限,使其数值都具有生物学意义,或至少落在正确的范围之内。
我明白,不论我们如何殚精竭虑地翻阅与生殖支原体及其近亲相关的文献、搜寻上述参数(我和卡尔、桑维最后花了两年时间,从900多篇文献里挑选数据),很多时候,我们也只能根据已有的知识勉力推测,或是采用像大肠杆菌这样一种完全不同的微生物的实验数据,来获得某些数值——比如DNA转录产生的RNA平均在多长时间后,才会被相关的酶切断,由细胞回收再利用。如果找不到办法限定和验证上述“猜”来的数值,我们就没有成功的希望。
单细胞优势
在2008年那个灵感到来的时刻,我意识到,对单个细胞、而非像从前那样针对一群细胞建模,可以为我们提供所需的限定条件。拿生长和繁殖来说吧,细胞群落会逐渐长大,一个细胞的产生或死亡不会对整体群落造成多大影响。
但是,对单个细胞来说,分裂却是一件相当激动人心的事。细胞在一分为二之前,首先要将自身翻倍。这不只是重量的翻倍,DNA数量、细胞膜,以及生存所需的每一种蛋白都必须各自翻倍。如果仅对单个细胞建立模型,计算机就可以计算并追踪整个生命周期中的每一个分子,检查在细胞一分为二时,是否所有的数字都对得上。
另外,单个细胞的繁殖速度基本是固定的。例如,在正常的实验室环境下,生殖支原体通常每9~10小时分裂一次,这个时间很少低于6小时或超过15小时。细胞必须根据这个严格的时间表,将所有内容物翻倍,据此,我们就可以为很多本来无法确定的变量选定可行的范围,例如控制DNA复制起始的那些参数。
复合算法
我组织了一个由物理学家、生物学家、建模师组成的团队,甚至包括一名曾在谷歌任职的软件工程师,一起讨论该采用什么数学方法。康奈尔大学的一名生物医学工程师迈克尔·舒莱 (Michael Shule)是细胞建模的先驱,曾经根据常微分方程建立起优秀的模型。我在圣迭哥的导师贝恩哈尔·保尔松(Bernhard Palsson)开发了一种叫做“流量平衡分析”(flux-balance analysis)的强大技术,在建立代谢模型中很好用。
但曾有人指出,偶然性是基因转录中的一个重要因素,细胞分裂的过程还涉及细胞膜的几何改变,而前面提到的方法无法处理这些问题。我还在读研究生的时候就已经认识到,细胞中所有的功能模型不可能采用单一方法来建立;事实上,我的毕业论文就阐述了如何将两种截然不同的数学方法联系起来,置入同一个模型。
因此,我们决定将全细胞模型分为28个不同的模块,每个模块采用最适合该生物过程、也在我们知识范围内的算法(见“运行中的数字细胞”)。但是,这个策略需要一个额外工作,那就是把不同的数学过程整合到一起,因为我们需要以某种方式,将它们组织成一个连贯的整体。
我回想起本科时选修过的一门化学工厂设计课程。在期末设计项目中,我们使用了一个名叫HYSYS的强大模拟程序包,来设计一个巨大的精炼厂。使用HYSYS,可以将每个主要反应放置于不同的容器中,然后用管道将一个容器的输出口,导入其他容器的输入口。这个框架结构将多种不同的化学反应组织成一个有序、可预测的系统。
我想到,如果做出一个重要的简化性假设,就可以采用上述方法建立细胞模型:在活细胞中,尽管生物过程都是同时发生的,但在少于一秒钟的时段里,这些过程基本上是互相独立的。
如果这个假设合理,我们就可以将细胞的生命周期分成以秒为单位的时间段,让28个模块按顺序运行,依次更新细胞内的变量。在长于一秒的时间范围内,这个模型也可以捕捉到所有生化反应间的相互关系,例如DNA的合成与转录对代谢过程的依赖性——前者需要后者产生的能量和核苷酸。
我们不能从理论上证明这个方法是否可行,只能怀抱信心去尝试。
在构建这个虚拟细胞的过程中,我们设置了传感器软件,监测细胞内的活动。模拟细胞每运行一次,会对应细胞的整个生命周期,产生500兆字节的数据。这些数据会流进一个由几十张图表和图像组成、类似仪表盘的东西。如果打印出来,能装满一整个文件夹。
起初的结果令人失望。我们连着几个月调试代码,改进数学模型,为各个参数加入更多、由更好的实验得出的限制条件,但细胞不是拒绝分裂,就是表现诡异。有一阵子,细胞产生巨量的丙氨酸,却几乎没有其他产物。
直到一天,我们的“电子微生物”来到生命周期的末尾阶段,终于成功地分裂了。更激动人心的是,这个分裂周期大约为9个小时,就和真正的生殖支原体一样。尽管很多数值与实际情况仍然相去甚远,但我们感觉到了成功的来临。
几个月后,我在贝塞斯达(Bethesda)参加一个为期两天的会议,空闲时间被人叫到酒店前台。
“科弗特博士吗?这是您的包裹。”
我回到房间,撕开包装盒,拿出一个文件夹。接下来的几个小时里,我翻看着数百页复杂的图表和图片,心开始怦怦直跳。绝大部分数据,仿佛来自一个真正生长的细胞,而其余的部分也很有趣,虽然不符合预期,但在生物学上都是合理的。那一刻我知道,我们终于登上了数年前就矗立在眼前的那座高不可攀的山峰。活体生物的第一个计算机模型已经成功运行,它会告诉我们什么呢?
窥视细胞生命之窗
我们的新工具投入使用已有大约一年,但每当我们观察这个虚拟微生物处理生存和繁殖所需的那数以百万计的细节时,都会有精彩的发现。我们惊异地发现,DNA上的蛋白质,将彼此“撞落”的频率异常地高——每个9小时的生命周期里,这样的事情大概会发生3万次。
我们还发现,这个虚拟微生物的分裂周期之所以非常稳定,实际上是两个不同的复制阶段发生复杂的相互作用的结果,而单独看这两个阶段中的任何一个,都变化得相当厉害。
以秒为单位记录细胞活动,让我们可以解释,为什么有些基因停止表达后,细胞会立即终止分裂,而有些重要基因受到抑制后,细胞却会在死前继续分裂10次——只要该基因产生的蛋白质在细胞中的存储量超过一次生命周期所需,细胞便仍会继续分裂,将超量部分传给子代,直到该蛋白用尽才会死亡。这些初步结果已经令人激动,但我们或许还需要数年时间,才能彻底理解这些模拟过程带来的关于这些微生物、甚至于普通细胞的知识。
我们在生殖支原体上的工作只是第一步,距离在基因和分子层面构建人类细胞模型,或是组织模型还有很远的路。我们今天的模型还远不算完善,支原体也只是最简单的独立生命形式。
我们的所有模拟过程、源程序、信息来源、绘图程序和实验数据都在网络上提供免费下载,同时也已经在和合作者一起改进这个模型,将其扩展到更多生物上,例如在学术界和工业界实验室中都十分常见的大肠杆菌和酵母。
这些物种中,基因的调控要复杂得多,各种生物事件在细胞内的发生位置也重要得多。这些问题解决后,我认为下一个目标将是小鼠或人类细胞——很可能是一种可以体外培养的细胞,例如巨噬细胞(免疫系统中的一种攻击细胞),以获得各种实验数据来调试模型,最终证实其有效性。
我无法猜测,这样的技术距离我们还有多远。与微生物相比,人类细胞内的分区要多得多,基因调控机制也多得多,而许多调控机制仍是未解之谜。另外,由于人类细胞在多细胞组织中协同作用,与微生物相比,不同类型的细胞发生相互作用的几率也大得多。
2008年2月13日那一天,我以为至少还需十年,我们才能建立起最简单的细胞模型,对于建立更复杂的模型更是完全不敢奢望。如今,我们至少已经可以想象用计算机来模拟人类细胞——就算模拟失败,也能让我们看到对自身细胞的理解还有哪些缺失。这也将是一次巨大的进步。
本文译者 徐海燕是美国哥伦比亚大学遗传学博士,现从事新药研发工作。
请 登录 发表评论