为“淘金”大数据蓄积力量 邬江兴 许宁生(前左)、张杰(前右)为大数据试验场联盟揭牌。 ■ 12月2日,在上海市北高新区举办的“大数据试验场联盟”成立仪式上,中国科学院院士、复旦大学校长许宁生和中国科学院院士、上海交通大学校长张杰的手紧紧握在一起。用张杰的话说,两人虽是多年好友,但他们作为上海交大和复旦的校长在公共场合“这种握手的机会并不多”。 两人的握手是在为“大数据试验场联盟”背书。这天,由复旦大学和上海交通大学共同牵头,29家高等院校、研究所和企事业单位参与成立的全国首个大数据试验场联盟宣布成立。 成立大会上,“大数据试验场”概念的提出者、中国工程院院士邬江兴对这一幕很是触动,他表示:高校、科研机构和企业等将发挥各自在产、学、研、用等方面的优势,迅速推进大数据试验场的建设。“联盟的成立必将对上海、全国乃至全球大数据事业发展产生历史性影响。” “大数据试验场”为何物?为什么要建“大数据试验场”? 为开发大数据“贫矿”作准备 “大数据试验场是面向大数据问题而设计的科学技术研发、研究和实验验证的阵地和平台。面向大数据应用的新型计算、新型存储、新型传输、新型管理等各阶段的技术创新都能从这个试验场走向市场。”邬江兴解释说,大数据试验场将是一个具有面向大数据应用技术的新型的服务支撑体系。 他同时指出,与一般的大数据应用不同,大数据试验场定位于开展大数据科学研究、技术创新、应用示范不可或缺的基础设施,未来要面向全球开放,服务大数据研究开发和人才培养。 许宁生对大数据试验场的定义更为直接:“大数据试验场就是这样一种拥有大规模数据容量、先进的管理分析能力,能够支持大数据研究开发和人才培养、支持基于大数据的科技与产业创新、支持政策与决策大数据推演试验的重大基础设施。”他同样对大数据试验场的诞生表示欢迎:“大数据的出现、大数据的科学问题、大数据的应用问题,决定了发展大数据需要一个这样的试验场。” 而谈到建立大数据试验场的初衷,邬江兴告诉《中国科学报》记者:“大数据技术研究门槛很高,创新门槛更高,怎么能降低大数据技术研究门槛,让更多人投身于大数据事业?直觉告诉我,应该有一个大数据试验场。” “大数据其实是一座贫矿,而不是富矿。要挖掘它的价值,就要有高精尖的采矿技术和采矿工艺,才能把那些看似废物的东西利用起来。”邬江兴说,大数据试验场的作用,就是去发明新的“选矿工艺”、新的“选矿机械和设备”,甚至“选矿理论”,这样一来,才能持续地支持大数据的事业。 “就像‘淘金’,没有好的淘金工艺,拿什么淘金?”邬江兴对《中国科学报》记者说,随着数据的大爆发,未来大数据这座矿山会越来越贫,“就像从上百吨的石头里才能挖到一颗钻石那样”。 助力中国信息技术升级改造 大数据的门槛有多高?邬江兴说起了刚发生不久的一件事:就在“大数据试验场联盟”成立的前一天,一条“亚马逊用卡车集装箱传输大数据”的消息在业界朋友圈刷了屏。 亚马逊“大卡车运数据”有着充分的理由:例如一部帧率极高的超级VR电影,在未压缩情况下数据达到了100PB,要将原片送去审核或者送往各大影院,利用飞机或者高铁大概需要1天时间,换算下来数据传输速率大概为1.1T每秒——当然这只是花在路上的时间。而如果通过网络或者云服务传输,拿今年刚创下的光纤传输纪录57Gbps来算(换算成网速大概是每秒7G),至少也需要160天的时间。 “如果光运输都需要这么久的话,未来大数据怎么存储?怎么挖掘?怎么计算和分析?我们现有的技术似乎还没有办法解决。”邬江兴说,“我们不相信未来真的需要飞机、火车运输数据,这就是我们建立大数据试验场的意义。” 近年来,人们真切地感受到了大数据时代的来临。一方面,海量的数据规模快速地流转,多种的数据类型和最大的数据价值,大规模地提升了生产效率,不断影响和改变着人们的生活方式;另一方面,大数据带给人们众多的冲击,引起了一系列的社会变革和挑战。为此,Nature和Science等国际顶级学术期刊相继出版专版来专门探讨大数据带来的挑战和机遇。 张杰举例说,2008年Nature出版专刊《大数据》(Big Data),从互联网技术、网络经济学、超级计算、环境科学、生物医药等多方面介绍了海量数据带来的挑战;2011年Science则推出了关于数据处理的专刊《数据处理》(Dealing with Data),讨论数据处理的问题。 张杰还注意到,大数据已经引起各国政府部门的极大关注。他介绍道,美国早于2012年就公布了大数据研发计划,旨在提高和改进人们从海量和复杂的数据中获取知识的能力,进而加速美国在科学和工程领域发展的步伐;欧盟方面也有类似的举措:“过去几年欧盟对科学数据基础设施投资一亿欧元,并将数据信息化基础设施作为其‘horizon 2020计划’的优先领域之一。” “我国‘十二五’期间将大数据技术作为重点予以支持,又在2015年将大数据上升为国家战略,今年有一批国家大数据综合试验区相继成立,可以看得出我国政府在大数据技术领域布局的急迫性。受此影响,各大企业也纷纷把数据资源的收集挖掘、分享利用作为当务之急。”张杰说,目前正缺乏将学术界和产业界创新大数据技术的纽带,与推进国家治理体系和生产力现代化相结合的核心平台,大数据试验场的成立正逢其时。 许宁生和邬江兴也指出,开发和建设大数据试验场已成为大数据时代引领国家创新能力发展的核心要素与紧迫任务之一。 “按照习近平主席的指示,我们要走引领发展的道路。”邬江兴说,未来大数据产业将产生重大变革,大数据试验场就是要抓住的那个“纲”。 像“扩红”一样壮大队伍 作为世界上第一个大数据试验场联盟,目前已有29家单位参与其中。 “下一步是迅速地扩大我们的组织,迅速地在全国和全世界公开招募联盟成员,因为这是人类发展史上一个很富有挑战性的事情,需要全人类的智慧来推动。”邬江兴作为联盟执行理事长在联盟成立仪式后的第一次理事会上提出:“我们要马上壮大我们的会员单位,聚拢更多的人,在上海这个大数据试验场上凝聚全国乃至全球的智慧,来突击大数据核心技术的攻关。” 邬江兴用“扩红”来形容他对“壮大队伍”的急迫性:“当年红军扩军有一个词,不叫招兵,叫‘扩红’,我们也要如此,在联盟拓展工作上要尽可能团结一切可以团结的力量,把有利于大数据试验场建设目标实现的力量都团结起来,这是我们成立理事会的首要工作之一。” 之所以有这种紧迫感,邬江兴坦言,现阶段的技术条件,与大数据试验场制定的目标还相距甚远,要想拿到能够揽下大数据这个“瓷器活儿”的“金刚钻”,面临着长期而艰巨的挑战——既有科学层面的,也有技术层面的挑战。此外,不得不承认,中国整体上与发达国家在大数据技术层面还有不小的距离。中国人要在这方面走在前面、引领发展,需要极大的耐心和付出。 “初期‘作战’的时候,可能联盟理事成员都要‘自带干粮’,甚至还要出钱出力出人。”邬江兴话锋一转,认为这是值得的,“大数据试验场,实际上,试验的是未来的技术,试验的是未来的生活模式、生产方式,所以大数据试验场带来的是未来大数据事业的发展,和人类未来科技的进步”。 《中国科学报》 (2016-12-06 第5版 技术经济周刊)