生物医学大数据与精准医疗

发布日期:2017-10-09

李亦学 上海产业研究院生物医学研究院长、上海生物信息学会理事长长

一、国内外发展态势

美国总统奥巴马在2015 年1 月份提出要做美国的精准医疗计划。计划里面核心就是要做百万人大型的队列,对疾病进行一些精准的定量研究。全做完估计将花费两百多个亿。我们习主席非常重视,要求做中国版的精准医疗。国家科技部和卫计委分别两次召集全国的专家论证在我国开展“精准医疗”研究计划的实施方案,在国家层面上组织了一批专家队伍来做中国版的精准医疗计划,不久我国即将启动精准医疗国家专项。

发展精准医疗,大数据是基础。怎样能够把国家大数据设施基础建设做好很重要。经过反复讨论,专家组对精准医疗给出的定义是:精准医疗是指在大样本研究获得疾病分子机制的知识体系基础上,以生物医学特别是组学数据为依据,根据患者个体在基因型、表型、环境和生活方式等各方面的特异性,应用现代遗传学、分子影像学、生物信息学和临床医学等方法与手段,制定个性化精准预防、精准诊断和精准治疗方案。就是从大样本人群和组学数据出发,提出各种疾病临床表型等等,最后做整合的数据分析,为临床精准的治疗和预防提供决策依据。

对大规模人群进行基因组或外显子组测序每年产生高达40PB(4 千万GB)的数据,这对基因大数据的人才和计算能力,提了非常高的要求。不仅仅原始数据的不断增长和储蓄需求是巨大的挑战,更大的问题还是来自巨量突变的挑战。工欲善其事,必先利其器,在数据获取方面的技术和产品不断发展。1986 年ABI 生产出第一台测基因序的仪器,1994 年NCBI 建立了基因数据库,2006 年ILMN 生产了第一代上市,后来Roche GS FLX454 推向市场,当前第三代测序仪已经上市,预计将在2015 年到2016 年成为成熟的市场化产品。新的建库技术不断产品,这样的平台每时每刻都在产生大量的数据。

现在大数据在生物医学发展的竞争主要体现在三个方面。数据资源和计算存储资源。规范的临床数据获取能力,大规模数据分析处理能力。当前数据处理能力增长速度赶不上数据增长速度。主要发达国家都建了生物医学大数据基础设施,而我国还没有。美国GTL 计划,欧盟2010 年发表的《科学研究设施战略规划报告》(ESFRI)都提出要加大生命科学生物信息数据共享基础设施建设,欧盟建议今后五年的投入将高达6 亿欧元,美国投入将更大。目前,美国癌症和肿瘤基因组图谱计划,数据已经30 个PB以上,发表了很多的文章。国际数据库建设已持续30年以上,累计直接投入超过百亿美元。我们的大科学研究计划为发达国家储备数据资源,美国NCBI 中的基因组数据量30% 以上来源于我国。大量的样本资源是我国生物医学方面的优势,我们应当按照一定的标准和方向扎扎实实做十年甚至更长时间。

二、技术发展新要求和关注点

大数据时代的隐私保护问题被广泛讨论。当前,对数据管理体系的软件和硬件的安全性缺乏基础性的和严格的评估,也缺乏对普通人来说可操作和方便易用的安全设计和相应的技术安排与支撑。

大数据分析有其自身规则,可以归纳为九点:第一,要有目标。第二,要有知识储备。第三,要有好的data。第四,要不断试错。第五,要知道数据内在规律性,它是由生物学原理决定的。第六,要对研究领域有感觉。第七,要具有一定预测和判断能力。第八,能够发现价值。第九,与时俱进的工作方法。生物学家Terry Speed 认为,数据产出实验的时间非常非常重要。不能拿了一堆数据什么都不知道就去做分析,否则很难有好的结果。

我们过去做了组学大数据分析体系,现在做的流程重点在语音上。把各种分析结果画图画出来,告诉生物学家。一个图是做FFT 分析,提示哪些变异位点可能和这个疾病相关,这是分析结果之后的总结。如果我们开发一个系统,把大人群样本组学数据按照一定方式,进行数据可视化,一次可以展示将近300 人以上的基因组数据,可以看到这里面非常特异性的基因组结构变化,再进行深入研究会有更令人期待的结果。当前技术发展迅速,让基因检测进行疾病分析预测成为可能。12 个样本全基因组测序,在过去一个人基因组测序要花30 亿美元做20 年。而现在做12 个样本只需要一周的时间,12 个不到10 万块钱就全部做完。所以如果把12 个人的样本测序做一些简单的比对,就可以直接了当地找到基因,判断是什么疾病。

三、重在应用创新、为产业服务

在美国,精准医疗领域的专家更多地在谈精准健康和可穿戴设备。其中一个例子是,一些教授和研究所得课题组自发建立了一个心血管健康志愿者俱乐部,会有厂商类提供一些可穿戴设备,发给俱乐部的成员。这些人可以实时检测血压、心电等一方面相关的数据,并实时传到云上去,他们在手机APP 上可以选择是否公开自己的数据。待俱乐部人数达到万人以上后,就可以利用这些数据建立模型,形成一系列基线数据,判断反映出个体的状况是处于健康、临界或是不健康状态。这是美国发展精准医疗的模式与趋势。

当前的健康管理产业还是处于事后诸葛亮、以偏概全、零打碎敲,最后投入产出不成比例、性价比低的状态。未来发展可以实现提前干预,干预、预测、个性化,个人能够积极参与,并且投入产出比很高,实现重心前移。