系统生物医学创新和大数据技术

发布日期:2017-09-21

赵国屏 中国科学院院士

一、基因组学是生命科学和生物技术的一次革命

人类基因组项目从美国开始。联系到前面登月计划的成功和肿瘤计划的失败,在总结了失败的教训基础上,以一个巨大的科学远见和一个国家的勇气和魄力,来启动人类基因组的测序是相当不容易的,因为那个时候无论是技术还是科学的各个支撑都离这个目标相当远。中国在上个世纪九十年代后期参加了这个项目,这对中国的生命科学和生物技术的发展起到了非常大的推动作用。从中国的经验和教训来看,我们必须认识到自己的责任和机会。一方面中国有着巨大的人口,而且有着代表了多个民族和各种不同遗传背景的人群,特别是大量的病人,这些都是做研究的机会;同时,由于中国人是东亚黄种人的代表,在以西方为主的人类基因组里面很多具体的成果必须中国人自己来做。认识到了我们自身的特点、责任和将得到的利益后,中国人下大决心来抓住这个历史的机遇,于是开启了这项工作,从九十年代中期开始参加这项国际合作。

我们在这方面有四点经验:一是做能做的一部分事情,但是基因组测序是必须做的;二是以医学基因组为主;三是及时地从测序走入功能基因组;四是同时要注意社会、法律和伦理方面的问题。

为了实现这个目的,我们在上海建立了第一个中国的基因组中心——南方基因组中心,后续还建立了一系列的研究中心,包括很大的生物芯片中心。这些中心首先发展了它的技术平台,包括基因组测序的平台、测序技术在医学上应用的平台、基因分型的平台、疾病基因的发现和鉴定从单基因走向多基因,还有就是生物芯片的平台,重点强调了基因的表达谱,从一般的样本开始走向疾病的样本,从DNA 走向mRNA,最后再发展到蛋白质组和代谢组,以及和代谢组对应的原基因组这样一个完整的基因组学平台。

除了上面说的分子组学四大平台,我们还有一个在组织上面的平台,就是所谓的TMA,这样可以对肿瘤组织和正常组织的比较很快地做出鉴定。

二、系统生物医学:从基因组学走向转化医学

从基因组学走向转化医学,其中核心的一个就是系统生物医学。通过基因组的工作,上个世纪习惯的生物医学研究体系里面出现了新的一级,就是数据级。同历史上一般的研究体系是一致,与这个数据级相关的一共有三条非常重要的分子:一个是直接和分析的能力相联系,一个是技术的平台,还有一个是药物和医学方面,跟很多具体的相关对象相关。这是一个很完整的体系,它的目标就是将系统生物学的研究应用到医院医学方面,也就是系统生物医学。

与此相关的生物学家、医学家、药学家也开始生活、工作在一个新的环境里面,有了一个新的基础架构(Infrastructure)。所以几乎是基因组工作开始的同时,上海在生物医药医学领域进行了一场非常大的研究体系改革。基本上可以把它分为两个部分:浦西是系统生物医学研究和临床研究的体系,包括上海申科院、复旦大学、交通大学和几个重要大学在一起的,医药卫生保健为主的红色生物技术、农业生物技术为主的绿色生物技术再加上一些支撑的技术平台。浦东是一个从基因组到新药的体系,当时改革的时候科学院特地把药物研究所搬到了浦东,在浦东形成了这样一个构架,从最上面的基因组研究(像基因组中心、生物芯片中心等)开始,到化学物质的产生(包括药物的筛选、靶点的鉴定、动物模型安全性检测等),最后目标是新药实现。我们认识到,所有的体系要串联起来高效的工作必须要有信息的沟通。信息沟通是一项基础性的工作,目前上海生物信息技术研究中心就是在做这件事。

以上所讲的这一系列的内容建立了我们系统生物医学到转化医学的大的支撑平台。当我们把这个研究体系和支撑平台用到以人(包括两类:病人和健康群体)为目标时,就是我们现在所谓的转化医学。

三、系统生物医学大数据的机遇与挑战

全世界都认识到生物学进入了一个大数据时代,每个星期都是一个Big Data Week,带来了各种各样的挑战,技术上面需要有很多突破。目前数据的增长已经超过了摩尔定律,很多测序数据短且复杂。从DNA、RNA、蛋白、代谢物一直到最后的表型,每个层次上的数据不仅数量增加,而且性质各有不同,往往不能并行,而是叠加性的,所以大数据就变得非常复杂。

大数据有四个特点:一是动态是高速和实时的Real Time。二是量态是海量的,一般都是以10 的15 次方为基础。三是状态非常复杂,而且有很多是非结构性的。四是“真态”,英文叫做Veracity,就是有很多缺失、偏见和异常的数据。当然,如果把这个事情做好还有第五态,就是价态,它的价值是非常高的。

因此,现在生物学研究已经进入了所谓的第四范式阶段。第一阶段是试验阶段,第二阶段是理论分析阶段,第三阶段是计算模拟阶段,第四阶段是集中研究阶段,生命科学和医学研究可以说已经进入了第四阶段。

当然,大数据所带来的挑战也是多方面的。最主要的是多学科的交叉和合作问题,以及各个研究所之间的协同、数据的整合和分析工具的问题,其中包括了它的标准化、重复性和各个方面的学术交流。实现有效的数据挖掘归根结底就一句话:Big Collaborations for Big Data。

数据的分散性和非结构性,使得通过数据分析形成一个有道理的图示是非常困难的。美国的NSF 和NIH在联合支持这方面的工作,他们的基本点也是把大家的能力综合起来,协同解决技术上的大问题。

四、超越技术的创新:科学技术与社会责任

超越技术的创新里面包含了科学的技术和社会责任。从科学上来讲,它是干和湿的联合,其中非常重要的内容就是人群的样本。美国一个肿瘤基因组项目,把全国各个医院里的样本整合了起来,在数据标准化后,通过创新利用数据的方法以及创新分析方法,发现肿瘤问题。 因为基因组项目最终的目的是攻克肿瘤,有了各主体的系统转化医学就成了真正的社会工程。一是人成为最好的研究模型,二是人群参与研究,三是最终研究结果为每个人服务。可以用林肯的这句话“Of The People,By The People,For The People”,把健康和医学连接起来,把医学和社会连接起来,建设和谐社会。

因此,从自身经验和世界经验来看,今天成立SAST-SITI-STEPI 非常有意义,可以促进我们达到三个目的:一是交流(Communication),第二是协同(Collaboration),第三是信任(Credit),达到双赢(Win-Win)的结果。借着这个机会,希望新的中心能够为两国科学家的合作做出更多的贡献。