加快建设全球(上海)数据观测站
郭毅可 英国帝国理工学院数据科学研究所所长、终身教授、上海大学计算机工程与科学学院院长、上海产业技术研究院特聘首席专家
一、以数据科学为基础
数据科学是多学科交叉的基础和媒介。数据科学的研究必须以数据驱动特性为特点,鼓励多学科交叉。通过大数据研究把不同的学科组合起来,并作为媒介和枢纽联动多个交叉学科,形成战略性的应用。在帝国理工学院,数据科学研究所(Data Science Institute)是直接隶属学校的一个独立研究所,不属于任何学院,但又服务于任何学院。根据工学院、理学院、商学院、药学院不同学科对数据驱动研究要求,整合他们的优势,来发展数据科学的研究理论和技术。这样既能挖掘数据的价值,又能快速找到研究的应用场景。现代化学、物理、天文、粒子物理、复杂网络、生物学都是基于数据科学的。
数据科学的研究包括三个核心工作:数据的整合和理解(Integration and understanding )、数据的获取与交互(Sensing and Interaction)、数据的学习与认知(Learning and Cognition)。大数据工作都是一个复杂的组合,例如医学信息学包括病人生理、病理、分子生物学数据的组合。数据整合最重要,在整合基础上理解它,并对数据进行标注赋予特定的意义。
二、以数据观测站为利器
数据观测站是聚合数据、展现数据的最重要的载体。工欲善其事、必先利其器,数据观测站对大数据的研究影响力巨大,它可以使数据拥有者直观看到数据的应用价值,让人们感受到数据的现实意义,从而愿意贡献和分享数据。帝国理工学院的数据科学研究所的数据观测站是世界上3 个基于沉浸式大数据的数据观测站之一。另外两个数据观测站分别侧重于虚拟现实和协同,位于澳大利亚墨尔本和美国芝加哥。帝国理工学院的数据科学研究所的数据观测站的重点是可视化分析,并在展现数据的软件兼容性和展现的精度上领先。目前使用的全球数据观测站显示屏,由64 块46 寸高清屏幕和37 台计算机组成,拼接在一起大致围成了一个315 度、半径6 米的环形,每一块屏幕可以独立显示不同的大数据结果处理图像,也可以组合显示一个大数据图像。
图1:帝国理工学院的数据科学研究所的数据观测站
数据观测站在帝国理工已有广泛的应用,如比特币实时交易的可视化、核反应堆仿真等应用实例;结合国内具体需求,开展了上海地铁列车运行和客流量可视化、“一路一带”战略的社会影响力等项目研究。比如,在上海申通地铁公司的帮助下,数据观测站采集上海地铁站每一个站点每2 分钟的人流量数据,在经过大数据分析之后,地铁线上每个站点的人流会在屏幕上显示出不同大小的红色点。通过这张图,地铁规划部门可以了解该如何合理分配未来地铁站线路和站点的分布,地铁运行部门则可以在地铁遭遇突发情况时,采用合理的方式疏导地铁人流。
图2 上海地铁运营监测的大数据可视化图
数据观测站是大数据研究的基础设施,是大数据科学研究的重要工具。建立一个沉浸式大数据可视化分析平台,支持大数据分析过程的认知模型、大规模高维数据的信息可视化技术、可视化分析的人机交互技术以及基于多屏的超大规模数据可视化技术的发展,对于确立上海在大数据研究领域居于国内外领先地位具有重要意义。
三、建设全球(上海)数据观测站,加快上海大数据产业发展
作为上海大学计算机学院的院长和上海产业技术研究院的特聘首席专家,郭毅可教授期待着为上海的大数据产业发展做出贡献,特建议在上海建造亚洲第一台数据观测站。数据观测站的可视化与影视是孪生兄弟,基于上海大学延长校区打造“影视产业基地”的基础,可以结合两者特点共同使用。大数据观测站不仅可以做数据分析,而且可以把影视和媒体产业结合起来,真正形成一个富有特色的数据产业基地。郭毅可教授希望上海能够有专项资金支持,帝国理工学院数据科学研究所将联合上海大学、上海产业技术研究院等单位,有条件、有能力承担起在上海建造亚洲第一个数据观察站的任务,以加快上海大数据产业发展。