战略咨询--金桥产业技术创新会议

嘉宾互动（Q&A）

发布日期：2017-10-10 来源：战略咨询部热度：

问：进行数据可视化研究的前提是拥有大数据，那么这些大数据如何获取？

郭毅可：不能简单抽象为“大数据”，而是“大”什么数据，如大基因数据，大医疗数据，大超市数据，大交通数据，等等。也就是说大数据跟专业领域结合起来。我们是做大数据研究的人，不是数据拥有者。要想获得数据，需要做的是让对方知道，他们同我们合作，可以使得他们的工具起到作用。

那么如何获取数据呢？首先需要对方先把数据给我，我可以让他看到自己数据的序列。通过可视化，让对方了解到自己的数据展现出来的新的东西。同时，别人给我数据，并不想两个月以后甚至两年以后，才能让他看到这些数据是如何呈现的，而是两天之后就可以看到结果。通过展示以及满足对方所需的方式，就可以获得这些数据。

李亦学：数据获取也是让我们头大的一件事。从我2000 年回国，国家认同生物大数据建设，但是做了15 年现在还在问数据在哪里的问题。我现在告诉他，如果有了设施，有了能力，别人会放手，但是目前推进不理想。

美国愿意送数据给我，比如1200 个肿瘤数据，这里面其实存在一些利益问题。他们愿意把数据给我们的一个重要原因是，觉得我们这个团队有能力帮他们分析这个数据。同样的，像毅可这边，我就想找他给我看一看，因为我要看一看这个数据到底是怎样一些情况。以前我看不到一个全景的图片，主要是通过计算机编一编挑出来，现在我直接看到之后确定下来，会看到很多以前不知道的东西。归根结底一句话：当具备能力和设施时，别人就愿意把数据给你。

问：如何打通不同层面搜集来的数据？（在工业4.0领域的汽车生产方面，当前从生产设计到生产再到出产，数据是不连通的。如果要打通这些数据，技术层面需要从哪里入手？）

郭毅可：这种现象对于病人看病也是一样，数据一段一段的，先看病做了X 光，等测了基因、测了表象是另一种表现形式。这时候涉及一个数据集成问题。我一直认为，在大数据分析过程中，重要的不是机器学习，最大的问题是有逻辑的正确地把它们组合起来。至于怎么样连通整个过程，不是关键技术的问题，而是能不能够有一个好的数据管理系统。在任何数据分析中间，成败的关键都不是有多好的算法。再好的算法，如果数据是错的也是无效的。

掌握数据及其时点都很重要，数据溯源实现的前提是了解整个链条。一个食品从农田长出来一直到吃到嘴里面，可以把一条链做出来，这条链对于食品安全是很关键的。这不是一个科学研究问题，而是规范、工艺、工程如何做好的问题。

李亦学：从我理解，我们这个行当里面讲时间序列数据分两个层次。比如我在不同的横断面，但我获取的数据是一个level 的数据。如果我在不同的横断面，我看到的是不同level 的数据，那就有一个怎样整合的问题。这里面有一个内在逻辑存在，你把这个搞清楚，依照这个逻辑再看看什么样的规模能让你把数据整合起来，这是要靠逻辑整合起来的。

问：如何看待大数据隐私？

郭毅可：我最近申请了英国一个科学基金项目，研究关于数据隐私的问题。这个问题源于一个怪想法，你为什么要隐私？事实上，我们一天到晚都在进行隐私权交换。比如说你拿到一个APP，问了一大堆问题结束了，99 块钱测一个，就是用交换隐私权换得一个便宜。从这个意义上讲，隐私权实际上是个人的一个交易工具。

那么能不能够把隐私权细化？可以事前约定隐私到什么程度，比如同意在上班时间GPS 个人信息，但是晚上六点到十点不许看，这是我的私人时间。因此隐私权有一个度，我研究的就是隐私权力度的问题。把隐私权定价，跟你交换一个隐私权，很有意思的事情。我们习惯把问题简单化，都在提隐私要保护，实际上不见得！隐私权是可以卖钱的，你拿隐私权卖钱是个经济大问题。

最影响大数据的是经济学家还有法学家，有很多问题需要考虑与解决。对于生命的数字化问题，这些数据哪些属于你？哪些可以拿来交换？哪些可以拿来换钱？都需要规范。大数据痛点在什么地方？我们对它的价值理解和把握还存在一个非常非常原始的阶段。都在说隐私权非常得重要，重要不在于保护它，而是交易它。所以隐私不要把它看成保护不保护的问题，而是很重要的经济学和社会学的研究问题，而且很有意思。

李亦学：我认同郭教授所说的。当需要个人的数据来救命的时候，还要不要隐私？实际上有这样的问题，就是我们讲生物医学数据。现在国内对于大数据隐私基本没有认真地去考虑，措施也就更少。国外是有这个考虑的，讲一个美国的例子。在美国，要有一个基本的做过医学伦理学培训的证书。将来做大数据的人必须要拿到这个证书，并基于此很清楚自己处理的数据中的哪些信息是需要保密的。比如一个病人有遗传病，做研究应用是可以的，但是不能把这个信息传播出去。是一个基本的伦理问题，明确知道什么可以做，什么不可以。

国外数据共享比我们做得好得多，我们的数据共享有很长的路要走。比如申康的数据，到目前为止我们都不知道数据的所有权在哪里。是国家的？医院的？还是患者个人的？需要卫计委、人大等机构给这些数据属性一个明确的界定。隐私权是有力度的，就是你怎么去看的问题。

郭毅可：比如病人的病历数据，基因是病人的，但基因六个维度的判断是大夫的，所以知识产权的分享不能简单说病历是属于病人的。要把一个数据里面的力度都分开。

现在数据交易是一种隐示化的状态，能不能把交易显示化？很多人提到隐私保护，保护就是我不让你用，这是零和，数据应该共享，实现双赢。通过使用个人的健康数据，有助于病人治病，这是可以的，而不能是拿着一个人的数据去给别人治病，而等到他来治病时去不给用。数据是一个贸易，英国人叫数据交易，我觉得这是一个比较有远见的说法。我在研究怎么样把隐私变成一种交易系统，最近这个研究得到了一些支持。

李亦学：随着大数据的到来和大陆的进一步发展，关于数据安全和个人隐私保护可能要变成一门课程。大家知道怎么样保护自己的隐私，基本的东西需要做。

朱扬勇：实际上，要尽快、尽早、尽量将数据开发使用，并不是说要去保护那个数据。

问：数据和软件如何区别？如何界定大数据属性或者名称？

朱扬勇：首先软件也是数据。至于数据怎么样来刻画，目前还无解。我的观点是要看对方的需求，然后谈判定价。

郭毅可：我不太同意软件是数据，我们不能把数据扩大化。对数的定义是对一个物理现象的量化描述，要不然什么都是数据，那就什么都不是数据。中国人说得最好，数据，以数为据。既然是对物理的量化描述，量都是自然的，但是你有一个量，数据的量纲是怎么样的则是另外一个问题。现在有本体论，但不能把所有事情变得虚无化，这就是数字跟数据的区别，软件是数字没有问题，是数字，但不是一个data。

李亦学：其实我们可以再讨论讨论，这两者是有共通的地方。数据的产生是依赖于我们使用的机器，而这个数据本身内在取决于精确度。这些都会变成和你这个机器本身附带的东西，应该放在原始数据上。如果你理解为软件或机器也是数据，我也同意。

问：大数据能够解决什么重大问题？

朱扬勇：就谈谈我们切身的，2015 年7 月份到现在的股灾，大家可能都非常痛苦，记忆非常深刻。现在一行三会把各个交易所上海证券、深圳证券、金融期货包括商品期货等的数据拿到，就为了去查股灾中间这些资金的流动，非法交易，非法做空，这在之前是不能做的，各个交易所也不可能拿出来。因为出了股灾，只有拿出数据来才能够彻底地把这个期间内做空的全部抓回来，这正是整个大数据的价值所在。

当时在救市的时候为什么救不起来？实际上是救市的组织不了解整个市场的情况，在单个单个市场也是救不了的，一定是系统性的救市的动作。这个就需要大数据各个部门之间的数据协调、开放、共享，这个是统一的。

资料下载更多

站内搜索