探索中国CIO人才现状 | 第四季调研报告
部署大数据时应思考的问题
2013-10-15  作者:CIO时代网 

  引言


  移动学习,即M-learning,是由E-learning延续发展而来,借助于网络和现代先进的通讯设备,使学习不再受时间、地域或者教师的限制,这是移动学习最大的优点。但作为一种全新的学习方式,对于移动学习的概念界定,目前仍没有一个统一的认识。一般认为国外学者AlexzanderDye等对M-learning的定义较为具体:移动学习是一种在移动计算设备帮助下,能够在任何时间、任何地点发生的学习。移动学习所使用的移动计算设备必须能够有效地呈现学习内容并且提供教师与学习者之间的双向交流。


  移动学习利用无线移动通信网络技术以及无线移动通信设备,如移动电话、个人数字助理PDA,PocketPC等获取教育信息、教育资源和教育服务。由于移动学习理论的不完善和移动技术的限制,国内外有关移动学习应用模式的研究还处在发展期。


  云计算(CloudComputing)是一种基于互联网的超级计算模式,即把存储于个人电脑、移动电话和其他设备上的大量信息和处理器资源集中在一起,协同工作。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。云计算凭借它的优点和各项服务已经势不可挡地来到我们身边,随着它的发展和普及,教育机构、教育者和学习者的信息都将逐步迁移到“云”上,这对移动学习的发展,无疑是一个很好的契机。


  在云计算环境下,需要构建支持网络学习的“云”服务。云服务的设计与开发是未来教学信息系统开发者要掌握的技术。学习者通过Web浏览器或手机等移动设备,获得互动性、体验性、移动性和存储服务。E-Learning服务和数据可以在最大范围内共享,避免了教育信息系统的重复开发。


  1云计算的应用环境及其特点


  云计算的应用环境是建立在大规模的服务器集群上的。例如:Google云计算服务器到目前为止已经有100多万台服务器,其他IT巨头的云计算服务器少的也有几十万台。可见云计算的规模是十分庞大的。云计算通过一定的虚拟化技术,将平台中的资源包括硬件资源和软件资源等资源化,供用户按需获得服务。用户可根据自己的需要,弹性地使用资源,同时还可扩展处理能力。


  从用户角度上看,云计算具有以下特点:


  (1)使用方便。用户可以不需要依赖特定的一些设备,只需一台电脑和一根网线,不受地域的限制,就可以得到云计算所提供的服务。


  (2)成本低。云计算提供了强大的硬件资源和软件资源,并有专业的维护团队,为广大用户省却了高昂的专业设备和软件的购置以及维护费用,用户只需支付价格低廉的云计算服务使用费用,而该费用也可根据用户的需求来进行消费。


  (3)灵活性。用户可以根据自己的需求来购买服务,而且云计算也是一个动态变化的,根据用户规模的变化而自动调整,这样也不至浪费资源。


  目前,移动学习设备存在的问题是制约移动学习发展和普及的重要因素。主要存在问题有:数据处理能力低,内置软件有限,多媒体资源的传输受限制。云计算技术的出现,为这些问题提供了一个可行的解决途径。云计算下,所有的数据存储和处理都将在“云”端的计算机群进行,其强大的计算能力使它能完成很多个人计算机无法应付的数据处理任务。由于所有的数据处理都在“云”端进行,学习者只需通过浏览器便可进行类似于在个人计算机上的常用操作,因此移动设备只要能够运行浏览器就可以了。


  2云计算搭建的移动网络学习平台的形式


  2.1搭建在云计算上的移动网络学习平台


  Moodle是一套网络学习管理系统,凭借着开源、信息集成等优点,自发布以来,得到众多教育专家的认可。Moodle爱好者们进一步发展了Moodle的相关模块和活动,以促进学习者的有效学习。但是Moodle运行的开销非常之大,据统计,一个标准的服务器内存容量在2GB,CPU2.0的服务器最多能够负载30一50台机器同时在线,要配置区域性的网络学习平台所需要的计算机资源将是非常巨大的。在这种情况下,移动设备的接人网速更慢,想通过这种方式来访问网络学习平台是不行的。如果把Moodle搭建在云上,完全可以避免这种情况。它可以大幅度地提高移动设备访问学习平台的速度。建构这样的移动网络学习平台将是对学习模式的一种创新,彻底打破学习的时空局限,真正做到随时随地学习。


  2.2搭建在云计算上的移动网络协作平台


  WebEx是Cisco网络上的一款重要的网络协作软件,多媒体通讯专网WebEx交互网络是一张覆盖全球的基础网络,它由包括服务器、高速网络联结设备、数据中心和网络管理中心在内的各种网络元素组成,提供了良好的冗余性、可靠性和可管理性。通过各个服务节点的高速连接,为客户实时互动地交流信息传输提供可靠的、可预见的性能,通过服务器的路由交换,会议数据流可以选择最近的传输路径,保证会议实时交流效果,它可以面向众多的网络用户,但是它也是基于网络浏览器的。也就是说如果交互的数目越多,将要产生的流量成指数增长,这样一来,服务器将会耗竭,客户端的需求响应将无法得到及时反应,严重影响服务的质量,又加之移动设备的网络流量有其固有的局限,在当前的网络环境下移动设备只能接收到一些断断续续的信息,根本无法保障移动学习的效率。


  如果将WebEx等网络协作软件搭建在以云计算为支撑的网络协作平台上,其交互的需求就可以通过庞大的云计算能力得到很好的解决,服务器不会因为参与人数的增多而出现瘫痪之类的问题。通过手持设备连接到网络的云,就能够随时随地享受流畅的网络协作、网络会议、课件视频点播等服务。


  在绘制大数据战略蓝图时,提出一些恰当的问题保证企业能够得到有用的信息是非常重要的。企业都担心落在竞争对手的后面和利用大数据实现各种业务目标的同行的后面。但是,在被大浪卷走之前,你要后退一步并且考虑五个问题以保证你走上正确的道路。


  你的问题


  这似乎是一个显而易见的问题。但是,感受到压力要成为数据驱动的企业的那些公司也许会冒进,不首先恰当地定义问题。你是不能把你需要的数据放入Excel表格的商务分析师吗?你首先不能访问你的公司的大数据吗?你是负责减少查询返回的等待时间的首席信息官吗?你是对查询结果需要等待数天或者数星期感到厌烦的非技术用户吗?你的数据是结构化的还是非结构化的?还是拥有上述所有问题?


  当然,你可能面对的问题之一是预算,特别是在创业企业和中小企业中。数据仓库和专用硬件的价格让他们望而却步。如果可承受性是一个问题,你要根据在商品化硬件上运行的软件制定一个战略,不需要数据仓库。


  你为免费(开源)软件支付的价格


  围绕Hadoop一直有许多争论。虽然Hadoop对于某些企业需求来说是一个非常好的开源软件解决方案,但是,免费并不意味着不支付任何费用。Hadoop在商品化硬件上运行。由于它需要电源和网络连接,这就需要投资。核心的Hadoop发布版是免费的开源软件。但是,有些厂商有专有的Hadoop发布版。即使开源软件发布版也有专有的插件管理工具。除非你从Apache软件基金会下载Hadoop组件,否则,你会像使用商业软件一样遇到同样的软件许可证和厂商锁定等令人担心的问题。如果你有足够的资金支付IT和硬件费用,Hadoop也许对你非常合适。但是,Hadoop并非适用于一切需求。这就引出了下一个问题。


  规模是否重要


  围绕大数据的谈话主要是PB级的数据。然而,大多数企业使用的数据仅达到TB级。当在TB级的范围内工作的时候,大型机器集群的开销也许不能得到投资回报。你会发现那个遗留的解决方案对于你的企业需求也许规模太大,是不必要的。如果是在TB级范围内,你就是在使用一台服务器的范围之内。你可以使用一台服务的解决方案,从而降低成本和简化。仅仅在10年前,一台服务器只能处理GB级的数据。但是,现在的商品化硬件已经能够处理TB级的数据,从而提供了以前不能提供的选择范围。


  你的数据在哪里


  你的大多数数据是在企业内部的,你的策略与大多数数据在云中的企业有所不同。例如,如果你的数据在亚马逊或者Rackspace的云服务中,那么,在那个框架中运行大数据解决方案是有意义的,因为数据很容易在那个环境中迁移。然而,如果你的大多数数据在企业内部并且你正在考虑在云中运行你的大数据查询,你要三思。大数据是很难迁移并且保持同步的。当上载到云的时候会有许多挑战。在这种情况下,大数据最好保持在企业内部的环境中。


  各种技术之间的区别


  目前有三种类型的技术用于大数据分析:软件数据库设备、硬件数据库设备和分布式数据库。软件数据库设备部署在商品化硬件上,一般部署在一台计算机上,因此,价格便宜,结构简单。


  硬件数据库设备包括与专有硬件捆绑销售的专有软件。专有硬件的技术规格比商品化硬件更强大,因此价格可以高50倍。分布式数据库是指部署在计算机集群中的软件,可以平行运行资源密集型的处理操作。这包括复杂的架构。你可能遇到的其它技术都是不能直接处理大数据的规模较小的技术,如内存处理或者联机分析处理。上载到这些数据中心技术的数据在上载之前要显着删减,一般采用上述的一种大数据技术。