突然之间,大数据一下子就“火”了,开源技术Hadoop也因此水涨船高。得益于一些国际领先厂商,尤其是FaceBook、阿里巴巴以及腾讯等互联网巨头的现身说法,Hadoop也被看成是大数据分析的“神器”。IDC对2013年中国的十大预测中就专门针对大数据进行预测,其认为2013年,会有越来越多的行业用户试水大数据平台和应用。而这之中,Hadoop将成为耀眼的“明星”,IDC在另一份研究报告中预测,预计到2016年,全球Hadoop-MapReduce生态系统软件市场收入,增长至8.128亿美元,复合年增长率(CAGR)达到60.2%。
大数据怎么就“火”?
“很多人认为Hadoop和大数据基本上是一个意思,这是错误的,”IDC数据库管理分析师CarlOlofson在谈到大数据与Hadoop时说,因为Teradata,MySQL和“智能聚合技术”的某些安装启用都用不到Hadoop,而这些也可以被认为是大数据。但绝大多数人在谈到大数据时,仍会将大数据与Hadoop等同起来。当然这得益于厂商的宣传,尤其是一些技术领先的互联网巨头的现身说法作用不可低估。
北京初志科技有限公司副总裁王超认为:“全球数据量的增长非常快,但这之中增长最快的是非结构化数据,而新兴的初创企业所带来的新兴技术肯定会将关注重点集中在这一方面。尽管传统的结构化数据也在增长,但其远远赶不上非结构化数据增长的速度,而新兴厂商通常无力去与传统解决方案厂商比拼技术底蕴,而非结构化数据则将是一个新的起点。”
不管怎样,大数据确确实实“火了”。IDC认为,移动互联网、物联网、电子商务等应用带动了数据源种类和数据量的持续快速增加,而传统的数据库和基础架构根本无法及时处理、管理和分析如此庞大的数据集。并且大数据不是某一类产品主导,而是带动了包括基础架构硬件、软件以及相关服务整个产业链的变革。
除了IT产业链的变革影响之外,大数据也切切实实能够给用户带来更多的有效信息。在2012年的大数据高峰论坛上,IDC亚太区业务分析市场研究总监CraigStires说:“无论是改善客户服务质量,还是使服务定位更精准,(大数据)都为实时分析和响应客户互动提供了新的可能性。技术障碍的减少使得企业能以低廉的价格获得可扩展的基础架构。此外,企业如今还可获得能够在传统应用中提供高性能功能的软件,同时还能将这些软件用于视频、语音及社交数据的分析。更为重要的是,服务企业正致力于提供路线图和最佳实践,以便利用业已证明的实际案例带来商业价值。”
2012年,云计算与大数据是IT行业最为火热的两个话题,在市场研究公司Garter所公布的2012年IT技术成熟度曲线的图中,云计算(Cloud)已经开始走向成熟,而大数据(BigData)还处于高速发展期,似乎云计算的落地将先大数据一步。
但一些行业人士并不这样认为,富士通公司市场营销/新业务开拓总部合作伙伴与联盟业务事业部邱弘总监对IT168记者说,但如果真正去对比大数据和云计算的话,也许用户对于大数据的接受程度会比云计算更高,因为大数据是以企业应用的角度为出发点,对数据进行处理,其最终目的能够为企业用户带来价值。
而反观云计算,邱弘继续解释说,其是一种服务,但用户对于怎么去实现这种服务,以及实施到何种阶段才能带来价值,企业对这点并没有很明显的感受。而大数据则不同,在之前用户就已经积累了一些数据处理的经验,例如BI系统、数据操控系统等等,这些实际上都是大数据处理的前身系统,用户已经体会到其直接带来的价值。所以从结合度方面而言,相比云计算,大数据可能更易于接受,更容易让用户去部署大数据解决方案。
Hadoop为什么那么“火”?
尽管大数据是摆在各位IT主管面前的巨大难题,但为什么火的是Hadoop,而不是其他?关键在于成本。据第三方市场研究公司的数据显示,在经济持续低迷的情况下,全球对于IT的投入仍将持续升高。
NetApp公司大中华区技术及专业服务部总监何英华先生在接受IT168记者采访时说,全球数据爆炸,使得企业的IT投资很难跟上这一步伐。这就迫使企业需要一种成本更低,但稳定可靠的解决方案,而开源技术Hadoop的出现无疑在技术上提供了这样一种可能。
除了开源技术本身所具备的成本优势之外,诸多领先厂商在Hadoop方面的尝试和经验分享,也给诸多用户提供了参考和建议。例如eBay就已经部署了一个大规模的Hadoop集群,并且ebay公司自动化架构总监JuhanLee先生在2011年的“Hadoop中国云计算大会”上分享了他们的成功经验。
JuhanLee先生在会后接受IT168记者的采访,谈到eBay的变迁之路时说:“我们的变迁可以说是从一种昂贵的数据管理系统迁移到可扩展、更经济的存储系统,并允许更灵活的管理功能的这样一个过程,在开始的时候,我们也非常谨慎,但渐渐的后来我们开始用Hadoop堆栈支撑业务系统,并取得了良好的效果,这鼓励我们继续在Hadoop方面持续我们的尝试。”
并且,他进一步介绍了Hadoop为eBay带来的好处:“用Hadoop这样的系统,我们就能在分析和转换前把所有的数据归档处理,可以根据分析的需要自由的调用。”对eBay来说,当一个毫无目的的潜在顾客来到eBay网站时,通过这个Hadoop进行处理并能够尽可能多的给出信息,这个潜在顾客也许就能消费。
同样,在此次大会上,来自FaceBook、淘宝、腾讯、人人网、即刻搜索以及华为等诸多互联网、IT巨头的工程师都毫无保留地分享了他们在Hadoop方面应用的实例,对Hadoop的重要组件,如Hive、Hbase以及HDFS等方面都有不同程度的侧重讲解。同时,在行业方面,中国移动率先分享了他们在“大云”项目上是如何利用Hadoop这一开源技术的。而这些成功案例无疑鼓励了一大批大数据分析的追随者迈出第一步。
同样,在2012年9月的“系统架构师大会”上,我们也看到了越来越多的Hadoop应用实例。例如京东虚拟化总监何雨先生为大家分享了京东是如何利用OpenStack来自建私有云,尽管主题是OpenStack,但在其中,我们注意到,在存储方面,京东利用了Hadoop这一开源技术来为客服提供了查询支持。
不管出于何种目的,这些拥有业内领先技术的厂商率先将Hadoop引入自己的数据中心,并将成功案例分享出来,其所起到的“带头”作用无疑是巨大的。
大数据火热Hadoop在中国走俏
在2012年年末,IT168与旗下ChinaUnix社区以及ITPUB社区共同发起了一项关于Hadoop在中国企业环境中部署情况的调查问卷。在通过对超过3000名的IT技术主管和技术工程师的调查问卷的结果进行分析后,我们发现,将近79%的企业用户已经部署或预计在未来一年内部署Hadoop或相关的大数据解决方案,其中已经部署了Hadoop的用户所占总体受访用户的比例为22%。
在部署Hadoop后,最为普及的几项Hadoop技术分别HDFS、MapReduce以及Hbase,其所占的总体比例分别对应为20%、18%和14%。实际上,从调查结果上来看,用户对于大数据处理,尤其是开源技术Hadoop的热度非常的高,但是出于理性和成本方面的因素,企业用户部署Hadoop的规模总体来讲,并不算大(极个别除外),还处于起步阶段。
当然,技术限制可能也是另外一方面,在此次调查中,尽管有93%的受调查者都表示对Hadoop的前景看好,但其目前也遭遇到不少的问题。例如22%的受调查者表示Hadoop目前没有商业化,服务难以保证,对Hadoop部署有一定的顾虑。另外,没有中文社区支持、技术学习难度较大和人才难找是面临的三个较大的问题。
北京初志科技有限公司副总裁王超认为,尽管类似Hadoop等开源技术的成本很低,入门也比较容易,但真正要根据企业具体业务来进行二次开发的话,对于诸多企业用户而言,还是一个不小的挑战,而且目前也没有太成熟有效的方法。
但值得庆幸的是,处于用户的需求,诸多厂商也看到这一市场的旺盛需求。例如英特尔在2012年年末发布了Hadoop发行版2.0,针对英特尔平台进行了专门的优化,如使得在英特尔平台上实现Hadoop,比非英特尔发行版获得性能的成倍增长,其处理能力达到“接近于实时”的处理效果。此外,英特尔Hadoopmanager2.0简化Hadoop的部署与管理工作;此外,英特尔Hadoop发行版还针对中国市场的行业和应用特点做了更进一步的优化。
英特尔Hadoop发行版2.0的发布受到诸多中国用户和厂商的欢迎。包括曙光、初志等国产存储厂商都透露出与英特尔共同合作开发的信号,以期望通过这种强强联手来为国产存储厂商带来新的商机。
除此之外,其他一些国际化巨头也不例外,如在今年8月,IT168记者在对EMCIsilon技术总监杨峰先生的采访中,就暗示了Isilon与大数据处理结果的可能。其透露,目前Isilon已经与EMC的GreenPlum部门有共同合作推出一款针对大数据处理的解决方案。但至于具体的推向市场的时间,其并没有透露。
不管是处于商业化的需要,还是因为用户的需求,实际上,在中国市场,Hadoop已经越来越成为大数据处理的代名词。尽管目前其还处于起始阶段,但其会慢慢壮大,这之中需要仅仅是时间而已。富士通公司市场营销/新业务开拓总部合作伙伴与联盟业务事业部邱弘总监认为,之前的企业用户就已经积累了一些数据处理的经验,例如BI系统、数据操控系统等等,这些实际上都是大数据处理的前身系统,用户已经体会到其直接带来的价值。