1.认识大数据
相信大家都还记得2013年5月10日淘宝十周年晚会上,阿里巴巴集团董事局主席马云在其卸任集团CEO职位的演讲中说到:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”
什么是大数据?
早在1980年,当时着名的未来学家阿尔文·托夫勒便在其着作《第三次浪潮》中热情洋溢地将大数据赞颂为“第三次浪潮的华彩乐章”。不过直到时光抵达2009年,“大数据”才开始成为互联网信息技术行业的流行词汇。
环顾四周,我们都已经切身感受到了当今的信息量正在以前所未有的速度膨胀。当我们的普通民众在上世纪90年代刚刚接触个人计算机的时候,1MB的磁盘,1GB的硬盘已经是不错的配置。然而现在呢?GB、TB都已经无法满足我们丈量数据大小的需要,PB、EB、ZB已经义无反顾地承担起了丈量数据的大任。
随着互联网自媒体的普及,每天都有数以亿计的人在发微博、写微信、更新个人主页、使用社交网站、发表个人评论……全球互联网上每天会有220万TB的新数据产生,90%的数据都是在过去的24个月内创造出来的,如今,这个比例还在不断上升。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,他们对大数据的表述是:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。他们对大数据的特性进行了归纳,提出了4V特点,即Volume(数据量大)、Velocity(要求实时性强)、Variety(数据的种类多样)、Value(数据是有价值的)。
而《互联网周刊》则认为“大数据”的概念远不止大量的数据和处理大量数据的技术,或者所谓的“4V特点”之类的简单概念。
大数据是涵盖了人们在大规模数据的基础上所能做到的事务,而这些事务在小规模数据的基础上是无法实现的。换句话说,大数据让我们能够以一种前所未有的方式,通过对海量数据进行分析,获得具有巨大价值的产品和服务,或者深刻的洞见,进而最终形成变革世界的力量。
2.大数据应用的现状分析
最早提出世界已经迎来“大数据”时代的机构则是全球知名的咨询公司——麦肯锡。麦肯锡在其研究报告中指出:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
大家都或多或少地意识到应该能从这些海量的数据中获取些什么,然而究竟我们能获取到什么呢?
一个被广为传播的典型案例是:在2012年初美国的一家Target超市,一位愤怒的父亲突然闯进来对店铺经理咆哮道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”经理下意识地认为是店里出了问题,也许是误发了优惠券,于是立即向这位父亲道歉。然而经理却没有意识到,其实这是公司正在运行的一套大数据系统得出的分析结论。
Target会从其会员的购买记录中去了解该顾客的性格、类别等一些列业务活动。上面的例子正是Target为适龄女性创建的一套怀孕期变化分析模型,如果相关客户第一次购买了婴儿用品,系统将会在接下去的几年中根据婴儿的生长周期向顾客推荐相关的产品,从而培养和提高客户的忠诚度。
果然,一个月后,该名愤怒的父亲打电话给商铺道歉,因为Target发来的婴儿用品优惠券不是误会,他的女儿确实怀孕了。
利用数据挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后发掘出更符合用户兴趣和习惯的信息、产品和服务,并对这些目标化的信息、产品和服务进行针对性地调整和优化,这便是大数据能带给商家最诱人的价值之一。
随着社交网络在人们生产生活中地位的快速提升,大量UGC(UserGeneratedContent用户自生成的内容)进入互联网,上述价值的实现也变得越来越明显。
事实上,全球IT业巨头都已经意识到数据的重要意义和“大数据”时代的到来。包括IBM、EMC、惠普、微软在内的全球知名跨国公司都陆续通过收购与“大数据”相关的厂商来实现技术整合。
目前典型的大数据应用领域有:
商业智能。例如:用户行为分析,即结合用户资料、产品、服务、计费、财务等信息进行综合分析,得出细致、精确的结果,实现对用户个性化的策略控制,这在营销网络的流量经营分析中占有越来越举足轻重的地位。个性化推荐,即在各类增值业务中,根据用户喜好推荐各类业务或应用,这已成为运营商和门户提供商服务用户的一个最有效方式之一,比如应用商店的软件推荐、IP?TV视频节目的点播推荐、购物或旅游网站的猜你喜欢等。
公共服务。一方面,公共机构可以利用大数据技术把积累的海量历史数据进行挖掘利用,从而提供更为广泛和深度的公共服务,如实时路况和交通引导;另一方面,公共机构也可以通过对某些领域的大数据实时分析,提高危机的预判能力,如疾病预防、环境保护等,为实现更好、更科学的危机响应提供技术基础。
政府决策。通过对数据的挖掘,从而有效提高政府决策的科学性和时效性。例如:日本大地震发生后仅仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。并且随即NOAA通过对海洋传感器获得的实时数据进行了计算机模拟,制定出详细的应急方案,并将制作的海啸影响模型实时发布在了YouTube等网站上。
3.大数据解决方案的现状分析
以往谈及大的数据通常用来形容一个公司创造的大量非结构化和半结构化的数据。如今把“大数据”作为一个专有名词提及,通常指的是解决问题的一种方法,即通过收集和整理生产生活中方方面面的数据,然后对其进行整理、挖掘、分析、处理,进而从中获得有用的价值信息。这种衍化出的新的商业模式即为通常意义上的大数据解决方案。
虽然通常意义上的大数据解决方案描述了一种通常的行为,但要实现这种通常的行为,往往会遇到诸多技术和硬件上的问题。一个显而易见的问题就是:大数据包络万象,而且像音频、文本信息、视频、图片等非结构化数据正以突飞猛进的速度增长,加上移动互联网的普及所带来的如位置、生活信息等富含价值的数据,现有的,或者传统的对数据的处理手段和硬件配置已越来越跟不上数据发展的步伐。
于是革命爆发了!
哈佛大学社会学教授加里·金就说道:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
数据需要存储,存储需要设备,存储设备的容量和可扩展性以及读取的速度成为了一大问题(容量问题);大数据不是一日而成的,往往都需要一定周期的积累,在数据的积累过程中,以前的数据和现在的数据在存储上应该是能保持一致的,无论设备升级与否,而且这些数据要长期有效,这是一个持久的问题(积累问题);与持久相对应的,互联网是变化的、经济活动是变化的、整个世界都是变化的,针对某些实时问题,如交易、金融等,用已经过去的数据显然是不合适的,这也是一大问题(延迟问题);大数据包络万象,有些是可以随意获得、发布和消除的,有些,如金融数据、医疗信息、政府情报等,则是需要按不同级别进行保护和加密的,特别是在需要交叉数据参考的应用中,不同部分的数据有着不同的安全需要,这又是一大问题(安全问题);为了满足上述问题,我们显然可以通过不断加大投入,购买更多的存储设备、雇佣跟多的工作人员、建设更多的数据中心和分析中心,但这一切都是由成本的,特别是对于以盈利为目的的商业机构而言,成本和收益永远都是最优先考虑的问题之一(成本问题);当然还有很多其他的问题,这里就不一一罗列了。
驱动商业机构解决上述问题的动力肯定是商业利益。以全球知名的IT制造与服务和咨询提供商IBM为例,其全球CEO调研显示,唯有在数据获取、将数据转换为洞察力、再将洞察力转化为行动力等方面表现优秀的企业,才能有持续的绩效表现。绩效突出者从海量数据中挖掘出有价信息的能力是绩效不佳者的2倍。
IBM认为由于当今企业、市场、社会、政府之间的联系变得越来越紧密,传统的数据分析正日益呈现出“大数据”时代的新特点,即容量要求更高、速度要求更快、数据类型多样和数据来源复杂4个方面。结合多家领先市场咨询机构的调研数据显示:
2010-2015年,“大数据”市场年均符合增长率为39.4%,将是整个信息与通信技术市场增速的7倍;管理及维护数据的成本将是购买存储设备所需成本的4倍;全球数据量的年均复合增长速度为59%;未来需要分析的信息源中,混合类型数据所占比重将高达85%;数据分析直接受到服务器性能制约的数据量将占到总体的87%;仅2012年一年,服务器在整体“大数据”市场投资中就将占去14%的比重。
这就意味着传统计算的低效正在为企业发展带来阻碍,企业感到当前的IT系统变得更加复杂且难以管理。数据显示:企业用于运营和维护IT系统的费用已经超过整体预算的70%,并且这一比例仍在持续增长;企业有三分之二的IT项目及解决方案部署超出了原定计划;IT架构的复杂度将以当前速度每两年就增加一倍。
于是出乎绝大多数人意料的事情发生了:IT部门,这个曾经作为企业现代化和创新化能力标志的部门,正越来越成为企业新创新的阻力而非动力。
怎么办?
很多人立即想到了另外一个热词:“云计算”。
IBM全球高级副总裁RodAdkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本。
EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。Teradata技术总监StephenBrobst则表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。
于是有人就此理解为:大数据的最佳解决方案是采用云计算和分布式处理,利用互联网将运算能力、存储能力都做分布式的处理,认为这样做就可以最大程度上地降低成本、增加扩展性和灵活性。
然而事实真的如此吗?
让我们来分析一下最近IBM公司在国内针对百万人口的城市级信息中心制定的解决方案:
面对数量庞大且增长迅速的各类交通信息:120万辆机动车电子卡、4万辆机动车的实时GPS定位、200万笔公交IC卡数据、518个高清卡口的113亿张图片等,该市信息中心的领导意识到,当前多个项目能源消耗大、占地要求非常高、并且原有的网络设备难以满足新增的需求,网络设备经常更换,并且这些相互独立的数据库、服务器和存储,以及不同的访问权限和没有统一的管理界面,让本就压力巨大的数据中心的效率大打折扣,同时也极大浪费了宝贵的人力、能源和其他各种资源。
IBM给出的解决方案是:
首先,在基础平台上摒弃了分布式的服务器架构,而是采用大型服务器在基础架构上对处理能力、I/O吞吐和主存储进行了整合,这样做的最大亮点是,将原有成百计的分布式服务器整合到了个位数,极大地节省了空间和能源,做到绿色环保;因为不用考虑各分布式服务器之间的互通互联和各服务器之间的状态及负载均衡与调配,节省了相当数量的管理人员;另外大型服务器自身端到端的管理功能和适用于异构工作负载且基于策略的框架,有效帮助信息中心实现中心控制,实现极高的性能。
其次,在整合的基础平台之上,采用“云计算”框架虚拟化设计,实现了智能交通和政务网站的整合。这一方案让用户在使用上可以享受与分布式架构相同甚至更加优越的性能。由基础平台通过虚拟化形成的任意数量的虚机,在统一云管理软件URM的配置下,能够提供统一的管理视图和管理机制,简化在多套异构业务系统环境下系统的运营和维护工作。
而在本方案中的存储部分则采用了运行稳定、性能领先、技术成熟的SAN网络架构,具有很好的稳定性,能为前端各应用提供可靠的数据存储平台,并且整个SAN网络中的部件都配置了双冗余组件,保证任一部件的损坏不会影响整个系统的运行,而关键数据库的数据都通过合理的备份策略,定期备份在了物理磁带上,保证关键数据的绝对安全。
总结下来,整合的基础平台,“云计算”框架的虚拟化设计,和定制化的高速存储,打造出了最稳定、最可靠、最安全、最绿色的运行环境,让政府的大数据应用完美落地。
可见,大数据的解决方案不同于纯粹云计算的解决方案,虽然云计算带来了看上去更便宜的处理能力和存储能力,但对于往往都有相当数量级规模的大数据应用而言,在基础架构上巧妙地整合和部分的集中,反而能更好地解决安全性、可靠性、稳定性和绿色环保的需要。
4.结束语
大数据为云计算大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题,海量的数据需要足够存储来容纳它,快速、低廉、绿色的数据中心将成为这一切的关键。
然而大数据并不意味着整合的、集中式的服务器架构已走向了末路,相反,大数据所带来的规模效应,使得我们越来越需要更加高效可靠的大型整合的混合负载服务器,巧妙地整合和适当的集中,将成为大数据解决方案里重要的一种思想和方向,特别是针对关键行业的核心数据,高安全、高可靠、高稳定将始终是使用者的首要考虑。