探索中国CIO人才现状 | 第四季调研报告
谨防数据“走火入魔”
2013-07-15  作者:支点网 

  一盘菜从下锅到入口,一定会经过热炒到急速升温再经历冷却后才能进食,一个概念要趋于成熟,也同样要经历这个历程,这就是硅谷臭名昭著的技术成熟度曲线。与其他技术一样,经过新闻媒体和学术会议的大肆宣传后,大数据最近也频频被泼冷水。2013年年初,美国知名大数据分析公司Avasid联合创始人兼CEOGurieetSinght就暗示大家“大数据”可能并没有那么靠谱。他指出,从查询开始分析数据本身就是一个死胡同,目前,研究人员还只是从收集到的数据中提取1%进行分析,而这1%被分析的数据却用来支配企业的革新和形成某种见解,这显然是不科学的。2013年5月,阿里集团王坚的一篇“大数据,你们都理解错了”的讲话,立刻抓牢人们的眼球,也值得让我们反思,大数据到底是什么?一直以来真的都没有抓住要点吗?


  大数据的真正含义,都理解错了?


  GurjeetSinght的观点有很扎实的依据。面对数据宇宙规模爆炸式的增长,科技发展的速度并没有与之相匹配。根据IDC最近的报告,当前人们每天可以收集的数据约1qB,而数字宇宙的规模已经达到了2.8ZB的数据量。IDC预计,到2020年数字宇宙的规模将高达40ZB。移动技术、传感技术的发展,让人们采集数据的能力不断增强,但识别数据的技术发展速度却没那么乐观。比如,在当前数据宇宙中很多有价值的数据,都是基于文档的未被标记的非结构化数据,人们对这类数据的识别、处理技术的研究刚刚起步。但市场中所谓成熟的大数据分析方法,却普遍是基于有效数据标识来采集用于分析的数据。根据这种方法,有些数据因为无法识别所以不能被标记,因而不能被视为有效数据,在用于分析前,它们就会被抛弃。这一问题导致大量有价值的数据就这样丢失了,完全没有被利用。


  王坚的论述也有相当丰富的例子作为佐证,大数据很早以前就有,然而,数据仅有“大”是完全不够的,即便是拥有全世界最多数据的欧洲对撞实验室,只要他的数据与互联网不沾边,那么他对大众来说就变得没有意义。所以,今天我们对数据本质的研究不应该是大,而应该是“在线”。在线让数据搜集变得容易,比如,以前美国要大选总统时,需要做盖勒普民意调查,抽取2000人进行调查问卷的填写,而现在,只需要在Twitter上分析每个人发布的状态,就可以推断出总统是谁,并且能够快速影响社会。但是,要让产品和数据结合得很好,还需要一个漫长的过程。


  玩转大数据,还需做足功课


  纽约创业公司Media6Degrees首席科学家克劳迪娅·珀利彻也给正走在被神化道路上的“大数据”重重的一击,“你可以用数据来欺骗自己,但我担心大数据出现泡沫。”


  珀利彻担心许多人将自己称为“数据科学家”,但实际上却并未做足功课,反而给该领域抹黑。珀利彻认为,大数据似乎将面临劳动力瓶颈,因为现有大数据专家们技能提升的速度远远不够数据的增长速度。麦肯锡全球学会在2012年发布的一份报告也显示,美国需要14万名至19万名具有“深度分析”经验的工作者,以及150万名更加精通数据的经理人,无论是已退休人士还是已受聘人士。这个数字无疑是庞大的。


  管理大数据要比搜集大数据意义重大的多,如何问问题,如何定义问题,从哪里提取数据?这都需要专业数据分析人士的技能,如果个人数字世界的算法过于简单,就不会达到预期描绘的那般智能。试想,如果没有挖掘出数据背后真正的价值,那么,再庞大的数据量也只是空弹,无法击中要害。所以,大数据专家们都应该意识到大数据技术的局限和不足,培养经验和敏锐的直觉,不能仅把听取数据放在重要的位置。


  也许现在大多数应用大数据的企业,还只迈步在1.0、2.0版本上,但真正意义上的大数据时代,也许要到3.0版才能实现。


  ——电子科技大学互联网科学中心主任、教授、博士生导师周涛


  善用数据,让版本升级


  在新一次可能的第三次工业革命中,数据、计算将扮演材料、能源和先进工艺技术这样的角色,如果把计算看成能源,能够允许它像电力一样进入大众的生活并流动起来,以一种统一的收费方式,不在乎计算从何而来,就像我们不知道今天我们用的5度电是来自大亚湾还是三峡。可以想象,在未来云计算以及其他的计算能力将成为一个国家非常至关重要的核心战略之一。数据就是其中一种战略材料,每一个企业、科研团队、都有责任通过一些计划,有目的的搜集、处理、分析和索引数据。然而,未来的大数据如果想要成就伟大的企业,真正先进的工艺技术来自于更深入的分析,需要更聪明的头脑,不再等同以前工业革命时期的工业技术,而在于拥有更聪明的头脑。


  当然,大数据时代和以前的工业革命不同的是,它的特征是个性化的,并且带来巨大的理念上的改变,同时也带来商业模式的变化。电子科技大学互联网科学中心主任、教授、博士生导师周涛将大数据在商业中的应用概括为1.0、2.0和3.0版本。“也许现在大多数应用大数据的企业,还只迈步在1.0、2.0版本上,但真正意义上的大数据时代,也许要到3.0版才能实现。”周涛说。


  1.0版所表现的,是企业通过自身的业务需求产生大量的数据,然后利用这些数据,通过深入分析,来优化相关的业务。在这个时候,数据起到了指导决策的作用。


  大数据的2.0版和1.0版的理念发生了变化。2.0强调数据的外延,数据除了从自身的业务产生并解决自身问题外,数据本身还有能力解决其他的问题,更有能力把其他数据聚集在一起解决自身问题。这里要求企业搜集与目标业务直接或间接关联的大量异质数据,建立复杂的分析和预测模型,产生针对目标业务的输出,这时候数据本身就是决策。


  3.0版也许会带领大家进入真正的大数据时代。3.0版更加关心数据的质量价值,数据好不好,有多大价值,交换如何付费等问题,尤其是数据的隐私安全。在这个时候,会有类似于电信运营商的数据运营商出现,让所有的学术团体、企业、政府,都能够使用大数据,这才是真正的大数据时代的来临。