目前在中国,“大数据”尚未直接以专有名词被国家提出。但是,工业和信息化部发布的物联网“十二五”规划中,把信息处理技术作为四项关键技术创新工程之一提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析,这都是“大数据”的重要组成部分。不过,已经有机构倡议将大数据像美国一样上升为国家战略。
“中国的云计算和大数据产业是国内信息产业最有可能实现弯道超车的产业,我们的数据资源极为丰富,技术研究上我们已经实现了紧跟国际前沿,国内已有一些企业抓住这个机遇,扩展业务,进行转型,希望他们能实现跨越式发展。”倪光南说,但他也表示最大的瓶颈还在于“应用相对滞后”,但他相信发展前景会非常广阔。
无论是否出于你的意愿,数据正在每天为你做着人生笔记:你去了哪里?看到了什么?做了什么?你的性格喜好?与谁联络?心情如何?……这些通通可以从你的网络浏览记录、交易记录、手机通话记录、联通视频记录、收发邮件记录、社交网络记录等等当中获得,你在网络上的每一个“足迹”都会以数据的形式被记录并存储下来,它们精准及时、事无巨细。而借助于这些数据,就可以拼出一个比你自己更了解的“你”。
这样由一个个数据描绘出的“你”,有何价值?
大数据(BigData)带来的可能性,当然不会仅仅只是制造一个高级机器人那么简单,否则也不会使得全世界都在为之痴迷和疯狂:它被认为是人类文明第三次浪潮的主角,将改变人类的思考模式、生活习惯和商业法则,被认为将引发社会发展的深刻变革,被美国定位为未来最重要的国家战略之一,是未来大国博弈的决胜关键……
现在,这一切正开始变为真金白银的生意。Amazon和Facebook(47.19,-0.30,-0.63%)用它卖出了更多的广告;Netflix用它创造了《纸牌屋》的收视奇迹;ZARA用它实现了比LV还高的利润率;奥巴马用它赢得了总统选举,但又为因它而起的“棱镜门”事件而焦头烂额……
当然,世界对于“大数据所带来的机遇是否被过分炒作”的质疑也从未停歇。在刚刚结束的夏季达沃斯上,一场主题为“大数据还是大忽悠”的辩论异常激烈。
辩论前对现场观众的调查显示,“大数据就是大忽悠”(正方)稍占上风。然而,辩论结束,“大数据不是大忽悠”(反方)成功逆转。反方“辩手”北京大学光华管理学院新媒体营销研究中心副主任苏萌教授的一段话赢得了观众手中的选票:15年前,人们认为互联网存在泡沫,但事实证明其并没有被高估;5年以前,人们又都认为电子商务被夸大,但如今看来这也是错误的结论。新事物的发展需要泡沫,这样才能吸引更多的资金和人才,沉淀下来的才是真正宝贵的东西。
数据大爆炸
你可能并不一定知晓下面这些数字,但你也一定会感受到“数据”正在呈几何基数的爆炸性增长,因为10亿台电脑、40亿部手机、无数的互联网终端……正在使得我们生活的世界高速数字化,“信息爆炸”早已从抽象的概念变为现实的描述。
从出现文字记录到2003年,人类总共创造出的数据量只相当于现在全世界两天创造出的数据量;在如此大的基数之上,全球的数据量仍然每18个月就会翻一番;预计到2020年,全球数据规模会达到今天的44倍;如今人们在一天之内上传的照片数量就相当于柯达发明胶卷之后拍摄的所有图像的总和……
就在10年前,1.44M的3.5寸盘还是我们装机的必备;几年前,体积不大但容量数百M的移动存储还曾让人们兴奋不已;而现在,GB级别的小U盘和TB级别的移动硬盘早已是普通用户的寻常之物,企业级应用则动辄就要跃升至PB、EB级别。(编者注:数据存储单位由小到大依次为Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,后者依次为前者的1024倍。)
数据分析并不是一个新概念,也有人会因此对于大数据不以为然,认为这只不过是新瓶老酒而已。但是,量变引发质变传统数据所采用的获取、存储、分析和解释的方法和技术,早已无法应对现在的数据规模、产生速度和复杂程度了。
“我们今天讲的大数据,和过去的数据挖掘有四个方面比较明显的差异。”中国工程院院士倪光南告诉记者,“一是数据量大,常为PB量级,而且每年有40%~50%的增幅;二是数据特征复杂,大数据时代我们主要面临的是非结构化信息,比如文本、图形、音频、视频等,而且大多是实时信息;三是数据来源主要是社会日常运作和各种服务中实时产生的,如在线搜索、社交媒体、移动电话、电子商务交易、遥感遥测数据等等,而过去主要是企业交易数据;四是应用领域主要是社会科学范畴,如在经济学和社会学上的应用,而过去主要是自然科学范畴的应用。”
而数据之所以变“大”的最重要的推手便是云计算。从技术上讲,大数据是根植于云计算的,它是云计算的重要延伸,两者相辅相成。数据被搬到了“云”上之后,更容易被收集和获得,过去那种各自分割存储的数据往往不具备太大价值,只有不同领域打通共享,数据金矿才能呈现眼前。而如此庞大的数据也只有依靠云计算强大的处理能力,才能够“淘尽黄沙始得金”。
从概念到生意
尽管在2012年,大数据才逐渐被中国产业界接受和关注,但业界普遍认为2013年将成为中国“大数据元年”,未来三年大数据市场都将呈爆发性增长态势。赛迪顾问统计数据显示,2012年我国大数据市场规模为4.5亿元,同比增长40.6%;而预计到2016年,大数据行业规模将突破百亿元。
和以往一样,美国依然被视为风向标。实际上,大数据已经成为华尔街和硅谷最炙手可热的追逐对象。今年5月两只刚刚挂牌的大数据概念股Tableau和Marketo都受到了市场极大追捧,Tableau首日涨幅63.7%,募资2.542亿美元,成为今年以来美国股市最大一笔科技公司的IPO项目;Marketo股价首日也飙升了78%。国内的A股市场也随之“激动”了一阵子。
目前,大数据市场中的商业机会主要有三大方向:一是提供“硬件+软件+数据”的整体解决方案,它以平台性为特征,提供基础服务,这个市场主要竞争者有国外的IBM(190.99,0.97,0.51%)、微软(32.74,-0.05,-0.16%)、惠普(21.2,-0.02,-0.09%)、EMC等,国内的有曙光、浪潮、华为、联想等。
二是掌握丰富大数据资源的互联网公司,国外以Google、Facebook、Amazon为代表,国内以阿里巴巴、百度和腾讯等为代表,这些公司掌握海量用户数据,通过数据挖掘形成产品和服务,如精准营销和个性化广告推介,同时也提供“数据租借”服务,为其他公司提供决策辅助。这个两个方向并非竞争关系,而是合作关系。因为两者是大数据产业链上的不同分工,前者负责后端平台,是系统供应商,而后者则负责前端的应用。
三是会出现一大批分工细致的第三方大数据公司,他们虽然没有第一类公司的硬件优势,也不具第二类公司的数据资源优势,但凭借某些细分领域的技术优势和专业性,也会在产业链中争到一杯羹,如专注电子政务和智慧城市的拓尔思就是例子。
行行都爱大数据
杰夫·哈默巴赫(JeffHammerbacher)是一位哈佛数学天才,2006年,他离开华尔街投行贝尔斯登(BearSteams)加入Facebook,成为Facebook最早搭建数据分析模型的人。通过对海量用户数据分析挖掘,他完成了FacebookCEO扎克伯格交给他的使命:弄清楚用户点击广告的动机和方式,这也为Facebook打开了高速盈利的阀门。
2008年,杰夫离开Facebook开始自己创业。谈到原因,他说了一句非常着名的话:“我们这一代人中最聪明的那些都在想着怎么让更多人点击广告,这简直糟糕透了。”现在,杰夫的公司正在帮助医生们找出“癌症患者都有哪些共同基因”,以提示有类似基因的人提前预防和治疗。
《大数据时代》作者维克托·迈尔·舍恩伯格向《中国经济周刊》介绍说,“苹果(490.64,23.23,4.97%)教父”史蒂夫·乔布斯的癌症实际上非常严重,但他比其他得癌症的人活得时间长,就是因为乔布斯有DNA排序的信息,这使得他有定制化、个体化的专门服务的治疗。
确实,如果我们把大数据的价值仅仅理解为可以更精准地向用户推送广告就太为狭隘了。小到“以最合适价格和时机购买衣服”,大到“重要的经济决策中如何提高经济效益”,大数据都会告诉你如何做。
“与人脑总是喜欢问‘为什么’相比,大数据会直接告诉你‘是什么’。”舍恩伯格举例说,冬天,人们总是被告知要记得戴帽子和手套,否则就会着凉,这是人脑的思维。但大数据分析会告诉你,着凉可能是病毒的问题,跟戴不戴手套和帽子没有很直接关系。再如,到餐馆吃饭,第二天生病了,人脑的思维马上会用可能吃坏了东西这样的理由来解释,但从数据统计学角度,生病还有可能与有细菌的手握手导致的。“如果有了大数据,就可以让脑子慢下来,不用去推测原因,直接回答结果。”
舍恩伯格再以谷歌翻译举例:谷歌依靠互联网做统计方面的工作,并耗资了数十亿,推出谷歌翻译。“谷歌不需要知道为什么一个词要翻译成另外的词,它只知道翻译什么。”
大数据的渗透力极强,从本质上讲,各行各业都已经在数据化了,比如电信业正在变成电信数据业,金融业变成金融数据业,医疗业也变成医疗数据业……这也就意味着,大数据挖掘将成为各行各业的必修课。
根据全球最具权威的IT研究与咨询公司Gartner统计,2012年大数据带动了全球280亿美元的IT支出,2013年带动的规模有望增至340亿美元,到2016年全球在大数据上的总花费将达到2320亿美元。
“中国一线的大型城市,仅仅健康档案的数据,一年就有5PB之多;一个智慧城市的数据一个季度就是200PB之多,这在过去很难想象。这些数据如果是无序的就是垃圾。我们需要把这堆垃圾变得井井有条,从中去寻找金矿。”历军说。
“2012年底,中国共计发行了37亿张卡,是全球的第一大发卡国家,每天大概有500亿~600亿交易通过600万张银行卡交易,这是一个非常庞大的数据量。”中国银联副总裁柴洪峰说,这些数据已经在变成非常重要的资产,而提升大数据处理的能力将会成为银联,甚至整个国家的核心竞争力。
全国农信银资金清算中心运行保障部总经理王永刚告诉《中国经济周刊》:“阿里金融的小额贷款几个小时就发放,而我们作为一个全力支持小微企业和个人金融服务的农村金融机构,最快也得7到10天。他们靠的是什么?就是利用开放平台的渠道的优势,还有一个就是数据挖掘的竞争性。他们大大降低了这种信贷、增信的成本和效率。我们银行不缺数据,但缺少把数据转为智慧,没有充分挖掘数据的商业价值。”
“10年前我们还只是温饱社会,但今天已步入小康社会,未来大数据会有怎么样的发展,可能会突破我们的想象。比如,现在正在发展的移动支付,就需要我们和运营商的数据合作才能为用户提供更好的服务。未来,医疗、教育、养老服务都有可能因为大数据而得到升级和改善。”柴洪峰说。
狂欢下的隐忧
今年6月,30岁的爱德华·斯诺登(EdwardSnowden)一个人几乎搅动了整个世界,这位美国防务承包商雇员、前CIA特工因为曝光了美国的“棱镜”计划而成为全球媒体的焦点。原来,美国国家安全局多年来一直通过直接接入苹果、微软、谷歌、雅虎等九大互联网公司的中心服务器,获取大量用户的邮件、聊天记录、视频及登录信息,中国内地和香港从2009年开始也在监控之列。
尽管美国政府称已经有“数十起”可能的恐怖攻击因为“棱镜”而流产,但是这件事还是激起了全球大讨论:国家安全和个人隐私的微妙边界在哪里?而今年的“3·15”,央视等媒体也针对许多互联网公司通过Cookies“窃取”用户信息的行为进行了曝光,同样引发了大数据收集和分享与个人隐私保护之间的争论。不少业内人士忧虑,这会成为大数据产业发展的巨大障碍。
大数据毕竟是新兴事物,相关的政策法规即使在美国也离完善差距甚远。倪光南认为:“我国大数据产业也同样面临着人才匮乏、数据开放程度较低、相关法律法规不完善等问题。”
“大数据有可能是大机会、大发展、大创新,也可能是大危机、大破坏、大淘汰。云计算和大数据将注定带来一次革命。”历军说。
就像在电影《点球成金》中,希望通过数据化思考代替经验思考的棒球队总经理所面临的最大困难并不是数据分析技术难题和资金投入,而是整个团队的不认同,因为经验丰富的教练和自认为慧眼识珠的球探,不认为一个数学天才可以用电脑代替他们多年修炼得来的经验和直觉。在我们的政府决策和商业判断中也是如此,能不能转变观念,才是大数据能否发挥实效的关键。
如果一个公司有数据,但没有数据的文化,它是很难开展让更多人用数据的,所以大数据实际是一种态度。