基因、癌症、人体老化……有了大数据，这些生命科学问题的研究被彻底颠覆|界面新闻

来源：Mosaic Science

翻译：于波

“我就是在这个时候开始觉得自己老了，”安妮·科克伦（Anne Corcoran）说。

科克伦是英国人类生物学研究机构巴布拉汉研究所（Babraham Institute）的科学家，她领导的团队研究人类基因组与免疫系统之间的关系——确切地说，是与防御感染的抗体之间的关系。

按她自己的话说，她是一名“老派的生物学家”，擅长使用吸量管、培养皿和护目镜在工作台上用玻璃器皿做实验，这些被称为“湿实验室”技能。她回想起自己的早期职业生涯，说道：“我知道基因在凝胶上是一幅怎样的景象”。

但现在，那些技能已经不够用了。“15年前我开始招募博士生的时候，候选人掌握的全是湿实验室技能，”科克伦说，“现在我们招募时，最先看的是他们是否能应付复杂的生物信息分析。”如今，想要成为生物学家，你必须是统计学家，甚至是程序员。你必须能使用算法。

从本质上来说，算法是一组指令，是一系列预先确定的步骤。食谱可以被视为一种算法，但更典型的例子是计算机程序。你输入数据（原料、数字或者其他任何东西），接着运行算法的步骤（简单的如“每个数字加1”，复杂的如谷歌搜索算法），最后得到输出数据：蛋糕，搜索结果，或者Excel表格。

科克伦这样的研究人员需要使用算法，原因是在她成为团队负责人之后的17年间，生物学已经发生了翻天覆地的变化。改变生物学的是巨大到令人窒息的数据洪流。新的生物医学技术，尤其是下一代的基因测序技术产生了大量数据。

不久前，对整个基因组进行测序（确定螺旋结构中所有30亿个DNA碱基对的顺序）还需要数年时间。人类基因组计划（首个完成的人类全基因组测序）于1990年启动，2003年完成，历时13年之久，耗资30亿美元。如今，下一代测序技术能在24小时内做到同样的事情，花费不过1000多美元。

这彻底改变了科学家的工作方式。他们不再需要频繁地亲自上手做实验，需要掌握的技能也与以前不同。不仅如此，科学的整个过程（提出想法和开展测试）都被颠覆了。

很多年长的科学家不得不去理解和监督那些他们接受专业训练时并不存在的技术。各所大学也在补上这方面落下的东西，因为很多学位没有教授现代生物学家所需要的技能。然而最重要的一点是，这催生了20年甚至10年前不可能做出的突破性科学发现。

科学的整个过程被颠覆

在距离巴布拉汉研究所10分钟车程的Hinxton村，坐落着另一个重要的生命科学研究中心：威康桑格研究所（Wellcome Sanger Institute）。该研究所已成立25年，其建筑本身就是快速变迁的基因学历史的某种体现。

在欧洲信息研究所（European Bioinformatics Institute）领导一支研究团队的莫里茨·格尔斯顿（Moritz Gerstung）说：“我是在桑格研究所做的博士后。”他回忆起那段经历不由得笑了起来。“你几乎能想到那栋建筑是在什么时候设计的，”他说，“供实验室作业的地方很大，却没有多少空间供科学家坐在电脑前分析数据。”

牛津大学大数据研究所统计遗传学教授吉尔·麦克文（Gil McVean）说，到处都是这样。如今，基因组研究主要是在电脑上完成，而不是在实验室工作台上。“看看15年前成立的实验室，90%都是湿实验室，”他说，“而现在如果你进入一间实验室，几乎所有人都坐在电脑前。如今要建一个生物医学研究中心，肯定是10%的湿实验室空间和90%的计算机空间。”

变化还不止如此。麦克文说：“科学研究的一大变化是放弃了目标明确、假设驱动的方法，也就是‘我有了这个想法，然后设计实验，开展实验，验证这个想法是对还是错’。”

以前，你必须先对某基因的作用机制有一个貌似合理的想法——你可以设想有某个听起来合理的生化途径，可以把该基因和某种疾病或特征联系起来。基因测序耗时良久，可用的计算能力有限，这意味着把珍贵的实验室和分析时间全部投入进去之前，你必须先确定目标。

麦克文说，现在你只需要收集大量数据，让数据来决定应该作何假设。如果你分析1万名某疾病患者和1万名非该病患者的基因组，你可以使用算法进行比对，找到不同之处，然后弄清楚是哪些基因与这种疾病有关，不必事先考虑可能是哪些基因。

这种方法被称为全基因组关联分析，是数据驱动时代一种常见的分析形式。想法非常简单：对很多人的基因组进行测序，然后使用算法来比对所有的DNA——不只是2.4万个基因（它们只占到基因组的1%至2%），还包括所有的非编码DNA。算法也可以非常简单，例如比对某DNA变体在具有某一特征或疾病的人身上出现的频率和在不具有这一特征或疾病的人身上出现的频率。如果该变体伴随某一特征或疾病一起出现的频率明显超出你的预期，那么算法就会把它标记为可能的原因。

难就难在几乎所有的疾病都很复杂，拥有几十甚至几百个基因或者非编码DNA片段。这需要用到复杂的多维分析，虽然其中牵涉的数学计算并不新鲜，但工作量非常大，因此算法不可或缺。通常来说，算法能一次比对几十或者几百个参数。

这有点像谷歌搜索算法。给各个网页排名的过程并不复杂，例如先衡量搜索词在某网页上出现的频率，接着衡量它们在该网页上出现的位置，然后衡量有多少个链接指向那个网页，诸如此类。但谷歌搜索算法把数以百计的衡量数据整合起来，同时应用于几十亿个网页，这非人力所能及。

算法作用极大。格尔斯顿研究的是癌症基因组学，该领域的进展也许最激动人心，例如与白血病有关的进展。

在某些情况下，全骨髓移植能成功地治疗这种常常致命的可怕疾病。但这是重大手术，有时并发症本身也能致命。只有那些病情最为致命的白血病病人才应接受全骨髓移植手术。

然而，很难预测哪些病情将会最为致命。症状十分复杂，有时不容易判断预后。

癌症有了新发现

格尔斯顿的团队对1500人的癌症基因组进行了测序，找到导致癌症的DNA变异，然后看看哪些变异与哪些结局有关。他们从患者身上发现了5000个不同的变异，大约有1000种不同的组合，按风险高低分成11类。“这可以帮助医生作出更加准确的决定，”格尔斯顿说。

数据驱动方法的影响力延伸到了更远的地方。南安普顿大学癌症免疫学教授艾德·詹姆斯（Edd James）说，肿瘤基因组测序已经使我们对癌症的总体认识发生了“思想上的改变”。“现在，我们更加意识到，癌症不只是一堆复制的细胞。”

一种癌症可能包含数十种不同的细胞，每种细胞具有不同的DNA变异组合，受制于不同的药物。因此，基因测序使医生可以更好地判断哪些药物对哪些病人（和肿瘤）有效。“以前，人们被当成群体成员来治疗：‘在接受这种治疗的人当中，X%的人将会获得良好疗效’，”詹姆斯说，“但有了测序数据后，你能知道他们（作为个体）是否会获益。”

除了发现不同之处，基因测序还揭示了癌症之间出人意料的相似性。詹姆斯说，以前我们根据身体部位来定义癌症，比如肺癌、肝癌、头颈癌等等。“但使用下一代测序技术，你会发现不同部位的癌症比相同部位的癌症拥有更多的相似性。这使我们意识到，对某种癌症有效的药物，可能对其他癌症也有用，”他说。

格尔斯顿持相同看法：“从基因的角度来看，不同部位的癌症之间有很多相同点。在某些前列腺癌中甚至发现了BRCA1，而BRCA1是乳腺癌的主要基因。”

这种认知将变得越来越重要。近日，美国食品药品监督管理局允许癌症药物Pembrolizumab用于存在错配修复缺陷（一种DNA修复错误）的任何癌症。这开启了根据癌症基因而不是部位来批准用药的时代。

科研也需“与时俱进”

这一切都得益于持续喷涌的数据流。

“我们非常善于产生数据，”研究病原菌基因组的桑格研究所数据科学家妮可·惠勒（Nicole Wheeler）说，“现在的情况甚至是，数据太多了。”麦克文同意此说法。“按照摩尔定律，计算能力每18个月就会翻一番，”他说，“生物医学数据的增长——不仅通过基因组测序，还通过医学成像和数字病理学——比那要快得多。生物医学数据遵循的是超级摩尔定律。”

在本世纪初，生物学家完全不可能独立检查数据。这意味着他们不得不招募或者自己变成数据科学家。

“几年前，我们遇到了瓶颈，”科克伦说，“我们有很多数据，但不知道怎么处理。所以，不得不匆忙发明算法，以便处理和充分利用数据。当你研究一个或几个基因时，你可以手动完成，但如果你研究20,000个基因的表达，你不可能自己一个人完成统计。”

和科克伦一样，很多生物学家历来都是在工作台上用玻璃器皿工作，而不是坐在桌前用电脑工作，因此不得不学习使用那些算法。“我觉得，年长的科学家常常对此望而生畏，对年轻同事过于依赖，只是他们不愿意承认而已。”

她学习了算法如何运作的“实用知识”，但承认“那是一个有点艰难的时期，上司没有能力检查下属的工作”。

巴布拉汉研究所表观遗传学研究团队负责人沃尔夫·赖克（Wolf Reik）持相同看法。他说，年长的科学家有完全不同的思维。“在实验室会议上，我手下的人把基因组作为一个整体来考虑。但我是考虑单个基因，然后概括归纳。我一开始学的是这种思考方式。”

他说，在他那个位置上的人必须了解年轻科学家的工作，“最重要的是对如何使用那些工具形成一种直觉，因为我最终要在研究报告上签上我的名字”。

另一方面，年轻的科学家伴随着数据成长起来，其中一些人就是来自于相关背景（格尔斯顿拥有物理学学士学位），一些团队负责人也是如此，比如麦克文。但本行是生物学的科学家最后不得不谈论代码。“我本科学的是生物，那是我的本行，”桑格研究所博士后研究员蔡娜（Na Cai，音译）说。她研究基因型与各种人类特征之间的关系。

“现在，我每天都要做统计分析。这就像学习另一门或几门外语，”她说，“我不得不转换思维，从生化途径和流程图转换到更加结构化的代码。”

她说，和她共事的年长科学家全都“与时俱进”，“他们也许不会写代码，但知道那些分析是干什么用的”。

惠勒的本行是生物学，但她也不得不跟代码打交道。“我没有传统的软件工程背景，”她说，“我在读博期间兼学了编程。我的代码不是最高效、最优美的，但你要知道哪些事情是必须用电脑来做的，并付诸行动。”

为了满足这些需求，近年来各所大学一直在调整本科课程。例如，纽卡斯尔大学的生物学本科课程现在有了生物信息课，雷丁大学的毕业研究项目涉及计算生物学。已经设有生物信息学课程的伦敦帝国学院计划为大一和大二学生增设编程课程。惠勒说：“我认为，人们已经意识到，生物学涉及的数据比以前要多得多，因此需要掌握处理数据的技能。”

改变是缓慢的，有时遭到学生们的反对，学生物的学生并不都愿意学编程。“我觉得，一些本科课程正在迎头赶上，”科克伦说，“但从总体上来看，情况不容乐观，教授那些技能的硕士课程大量增加就是例证。”

但改变是必要的。哪怕是湿实验室倾向最严重的科学家也说，他们花费不到50%的时间做实验，有的只有10%。蔡娜成为全职的生物信息学家后，甚至不再花费任何时间做实验。

惠勒说，向数据驱动的转移可以被视为从“假设-验证”到“假设-产生”的转变。有的科学家担心这不利于科学创新，但惠勒认为事实并未如此。“这调动了创造力，”她说，“从某些方面来看，创造力有了更大的发挥空间。你能以较低的代价尝试一些疯狂的想法。”

这还有其他的好处。“科学假设不以人的意志为转移。”英国计算生物学研究机构厄勒姆研究所（Earlham Institute）生物信息学家马特·伯恩（Matt Bawn）说，“公正客观、不带任何偏见的观察者看着空白的画布，让图画自己出现，这样不是更好吗？”

基因的形状，人体内的老化时钟

但最大的好处是，在以前不可能研究的复杂领域，数据驱动的研究取得了令人震惊的新发现。

巴布拉汉研究所的斯特凡·舍恩费尔德（Stefan Schoenfelder）研究染色体的3D形状，以及它们如何影响基因表达。人类基因组计划完成的时候，人们发现基因数量比先前预计的要少得多，大约有2.4万个，只相当于科学家预估的最低数量的四分之一。其余的全是非编码DNA。

后来人们发现，那些非编码区的作用之一是调控基因的表达：开启某些细胞的基因，关闭其他细胞的基因。它们是如何做到的？一个方法是在不同的细胞中把自己折叠成不同的形状。

染色体往往被描述成X形状，但只有当细胞分裂的时候才是这样。在其余时间，两米长的DNA在几乎所有的细胞内都是乱糟糟地盘绕成一团。一段DNA哪怕离染色体上的一个基因很远，也能调控该基因，因为二者有着紧密的联系。舍恩费尔德说：“因此，在3D背景下进行这方面的研究很重要。如果你只是着眼于序列，以为它们只能调控邻近的基因，那就大错特错了。”

此外，基因组的折叠方式千差万别。舍恩费尔德说：“同样的基因组，在T细胞内的构象不同于在干细胞或脑细胞中的构象，这与被表达的不同基因和获得不同功能的细胞有关。”

弄清楚染色体在各种背景下的3D形状是极为困难的。这涉及到确定细胞类型，看看它们和其他的细胞类型有何不同，哪些DNA片段在哪个背景下进行互动。但首先必须使用复杂的交联和连接技术来处理DNA，以便进行测序，看看哪些片段彼此靠近。如果发现两个远点在一起，这可能是因为它们被折叠成那样，好让一个影响另一个。但在更多的时候，这只是随机折叠的产物。

从假象中发现真正的关联，这需要分析数十亿个数据点，看看哪些连接出现的次数较多。然后就轮到算法上场了。一旦你知道哪些染色体片段经常和其他哪些片段连接，你就能根据那些连接点，利用算法建立3D模型。

舍恩费尔德说：“这个研究领域只有15年的历史。”他说，在那之前，“我根本没有考虑过基因组的形状，我只是把它想象成被塞进细胞核的一团意大利面。把它塞进5微米直径的细胞核，我原以为这只是一个逻辑问题。”

“调控的精细程度让我惊讶不已。尽管极为小巧紧凑，但仍然实现了那种程度的微调。”染色体的3D形状，以及哪些调控因素与该形状上的哪些基因发生相互作用，这将在很大程度上解释人体内的200种细胞类型是如何形成的。

麦克文说，基因组研究迫使医生对多发性硬化症进行彻底的重新分类。“我们发现，250多个基因组片段与多发性硬化症风险有关，”他说，“这让我们可以就个体的患病风险作出非常有力的表述。但这也让我们看到了多发性硬化症与类风湿性关节炎等疾病的联系：增加多发性硬化症风险的一些基因，会降低关节炎风险。”

“我们由此得知，这是一种自体免疫疾病，尽管它表现为一种神经变性疾病，”麦克文说，“在这方面，有四五家公司提出了新的治疗方案。”

沃尔夫·赖克的故事则惊心动魄、堪称科幻。他的研究属于表观遗传学领域，着眼于细胞的化学环境如何影响基因的表达。他进行RNA（让DNA可读和合成蛋白质的信使分子）测序，看看各个细胞的RNA有何不同。他的团队对老化特别感兴趣。

五年前，人们发现（赖克的研究结果自此得到证实），所有的人体细胞内都有一个老化时钟，被称为DNA甲基化。DNA字母表上有四个字母：C（胞嘧啶）、A（腺嘌呤）、G（鸟嘌呤）、T（胸腺嘧啶）。随着我们年龄的增长，DNA上越来越多的C会得到一个小小的化学标记，名为甲基。读取这个时钟很简单，只需要数甲基的数量即可，但返回的数据点实在太多，只能用算法来数。

“只要读取那个时钟，我们就能预测你的年龄，误差不超过3岁，”赖克说，“这是我们目前拥有的最准确的老化生物标记。”

所有这一切都非常值得关注：这“要么是潜在老化过程的读数，要么是编排好的预期寿命”。但赖克说，这一发现的意义在于，我们可以中断它：“我敢肯定，以后会有药物和小分子能减慢那个老化时钟。”

波澜壮阔的革命

大数据将帮助人类实现永生，这可能是一种奢望。但和我交谈过的所有科学家都认为，算法主导的数据密集型基因组研究已经改变了生命科学。年长的科学家有时不知道年轻的同事在干什么，现代研究中心开展实验的空间显得过大，而摆放电脑的空间太小。舍恩费尔德说，改变的步伐可能“令人迷失”。

“现在，生命变得更加复杂，”他说，“仅仅13年时间而已，我在读博时学会的技能已经不足以跟上现在的科学。”但这种变化重新为基因组研究注入了一股乐观的情绪。当人类基因组计划接近完成的时候，人们非常激动，认为很多疾病的基因因素将被发现，从而很快被攻克。但结果却发现，大多数疾病非常复杂，拥有很多基因，不可能只靠分析单个基因就能弄明白。现在，利用下一代测序技术和数据筛选工具，我们有可能战胜那些疾病。

“现在，我进行实验的时候，会得到1亿甚至2亿个数据点，”舍恩费尔德说，“我以前觉得这是不可能的，但在几年内就真的发生了。现在，我们能解决10年前根本不可能解决的问题。这是一场波澜壮阔的革命。”