嘉宾互动(Q&A)
问:进行数据可视化研究的前提是拥有大数据,那么这些大数据如何获取?
郭毅可:不能简单抽象为“大数据”,而是“大”什么数据,如大基因数据,大医疗数据,大超市数据,大交通数据,等等。也就是说大数据跟专业领域结合起来。我们是做大数据研究的人,不是数据拥有者。要想获得数据,需要做的是让对方知道,他们同我们合作,可以使得他们的工具起到作用。
那么如何获取数据呢?首先需要对方先把数据给我,我可以让他看到自己数据的序列。通过可视化,让对方了解到自己的数据展现出来的新的东西。同时,别人给我数据,并不想两个月以后甚至两年以后,才能让他看到这些数据是如何呈现的,而是两天之后就可以看到结果。通过展示以及满足对方所需的方式,就可以获得这些数据。
李亦学:数据获取也是让我们头大的一件事。从我2000 年回国,国家认同生物大数据建设,但是做了15 年现在还在问数据在哪里的问题。我现在告诉他,如果有了设施,有了能力,别人会放手,但是目前推进不理想。
美国愿意送数据给我,比如1200 个肿瘤数据,这里面其实存在一些利益问题。他们愿意把数据给我们的一个重要原因是,觉得我们这个团队有能力帮他们分析这个数据。同样的,像毅可这边,我就想找他给我看一看,因为我要看一看这个数据到底是怎样一些情况。以前我看不到一个全景的图片,主要是通过计算机编一编挑出来,现在我直接看到之后确定下来,会看到很多以前不知道的东西。归根结底一句话:当具备能力和设施时,别人就愿意把数据给你。
问:如何打通不同层面搜集来的数据?(在工业4.0领域的汽车生产方面,当前从生产设计到生产再到出产,数据是不连通的。如果要打通这些数据,技术层面需要从哪里入手?)
郭毅可:这种现象对于病人看病也是一样,数据一段一段的,先看病做了X 光,等测了基因、测了表象是另一种表现形式。这时候涉及一个数据集成问题。我一直认为,在大数据分析过程中,重要的不是机器学习,最大的问题是有逻辑的正确地把它们组合起来。至于怎么样连通整个过程,不是关键技术的问题,而是能不能够有一个好的数据管理系统。在任何数据分析中间,成败的关键都不是有多好的算法。再好的算法,如果数据是错的也是无效的。
掌握数据及其时点都很重要,数据溯源实现的前提是了解整个链条。一个食品从农田长出来一直到吃到嘴里面,可以把一条链做出来,这条链对于食品安全是很关键的。这不是一个科学研究问题,而是规范、工艺、工程如何做好的问题。
李亦学:从我理解,我们这个行当里面讲时间序列数据分两个层次。比如我在不同的横断面,但我获取的数据是一个level 的数据。如果我在不同的横断面,我看到的是不同level 的数据,那就有一个怎样整合的问题。这里面有一个内在逻辑存在,你把这个搞清楚,依照这个逻辑再看看什么样的规模能让你把数据整合起来,这是要靠逻辑整合起来的。
问:如何看待大数据隐私?
郭毅可:我最近申请了英国一个科学基金项目,研究关于数据隐私的问题。这个问题源于一个怪想法,你为什么要隐私?事实上,我们一天到晚都在进行隐私权交换。比如说你拿到一个APP,问了一大堆问题结束了,99 块钱测一个,就是用交换隐私权换得一个便宜。从这个意义上讲,隐私权实际上是个人的一个交易工具。
那么能不能够把隐私权细化?可以事前约定隐私到什么程度,比如同意在上班时间GPS 个人信息,但是晚上六点到十点不许看,这是我的私人时间。因此隐私权有一个度,我研究的就是隐私权力度的问题。把隐私权定价,跟你交换一个隐私权,很有意思的事情。我们习惯把问题简单化,都在提隐私要保护,实际上不见得!隐私权是可以卖钱的,你拿隐私权卖钱是个经济大问题。
最影响大数据的是经济学家还有法学家,有很多问题需要考虑与解决。对于生命的数字化问题,这些数据哪些属于你?哪些可以拿来交换?哪些可以拿来换钱?都需要规范。大数据痛点在什么地方?我们对它的价值理解和把握还存在一个非常非常原始的阶段。都在说隐私权非常得重要,重要不在于保护它,而是交易它。所以隐私不要把它看成保护不保护的问题,而是很重要的经济学和社会学的研究问题,而且很有意思。
李亦学:我认同郭教授所说的。当需要个人的数据来救命的时候,还要不要隐私?实际上有这样的问题,就是我们讲生物医学数据。现在国内对于大数据隐私基本没有认真地去考虑,措施也就更少。国外是有这个考虑的,讲一个美国的例子。在美国,要有一个基本的做过医学伦理学培训的证书。将来做大数据的人必须要拿到这个证书,并基于此很清楚自己处理的数据中的哪些信息是需要保密的。比如一个病人有遗传病,做研究应用是可以的,但是不能把这个信息传播出去。是一个基本的伦理问题,明确知道什么可以做,什么不可以。
国外数据共享比我们做得好得多,我们的数据共享有很长的路要走。比如申康的数据,到目前为止我们都不知道数据的所有权在哪里。是国家的?医院的?还是患者个人的?需要卫计委、人大等机构给这些数据属性一个明确的界定。隐私权是有力度的,就是你怎么去看的问题。
郭毅可:比如病人的病历数据,基因是病人的,但基因六个维度的判断是大夫的,所以知识产权的分享不能简单说病历是属于病人的。要把一个数据里面的力度都分开。
现在数据交易是一种隐示化的状态,能不能把交易显示化?很多人提到隐私保护,保护就是我不让你用,这是零和,数据应该共享,实现双赢。通过使用个人的健康数据,有助于病人治病,这是可以的,而不能是拿着一个人的数据去给别人治病,而等到他来治病时去不给用。数据是一个贸易,英国人叫数据交易,我觉得这是一个比较有远见的说法。我在研究怎么样把隐私变成一种交易系统,最近这个研究得到了一些支持。
李亦学:随着大数据的到来和大陆的进一步发展,关于数据安全和个人隐私保护可能要变成一门课程。大家知道怎么样保护自己的隐私,基本的东西需要做。
朱扬勇:实际上,要尽快、尽早、尽量将数据开发使用,并不是说要去保护那个数据。
问:数据和软件如何区别?如何界定大数据属性或者名称?
朱扬勇:首先软件也是数据。至于数据怎么样来刻画,目前还无解。我的观点是要看对方的需求,然后谈判定价。
郭毅可:我不太同意软件是数据,我们不能把数据扩大化。对数的定义是对一个物理现象的量化描述,要不然什么都是数据,那就什么都不是数据。中国人说得最好,数据,以数为据。既然是对物理的量化描述,量都是自然的,但是你有一个量,数据的量纲是怎么样的则是另外一个问题。现在有本体论,但不能把所有事情变得虚无化,这就是数字跟数据的区别,软件是数字没有问题,是数字,但不是一个data。
李亦学:其实我们可以再讨论讨论,这两者是有共通的地方。数据的产生是依赖于我们使用的机器,而这个数据本身内在取决于精确度。这些都会变成和你这个机器本身附带的东西,应该放在原始数据上。如果你理解为软件或机器也是数据,我也同意。
问:大数据能够解决什么重大问题?
朱扬勇:就谈谈我们切身的,2015 年7 月份到现在的股灾,大家可能都非常痛苦,记忆非常深刻。现在一行三会把各个交易所上海证券、深圳证券、金融期货包括商品期货等的数据拿到,就为了去查股灾中间这些资金的流动,非法交易,非法做空,这在之前是不能做的,各个交易所也不可能拿出来。因为出了股灾,只有拿出数据来才能够彻底地把这个期间内做空的全部抓回来,这正是整个大数据的价值所在。
当时在救市的时候为什么救不起来?实际上是救市的组织不了解整个市场的情况,在单个单个市场也是救不了的,一定是系统性的救市的动作。这个就需要大数据各个部门之间的数据协调、开放、共享,这个是统一的。