探索中国CIO人才现状 | 第四季调研报告
云计算系统管理常出现的问题解析
2013-07-12  作者:企业网 

  经常有人问我们,日常常见问题有哪些,如何解决?您可想象,我们云络网络是全球最大的大型互联网系统外包服务运营商,所以几乎碰到过所有问题。


  我们运行各类游戏、电商、移动通讯、广告、财经、社交活动、旅游及其它多种网站,所以在各种系统平台上碰到过各种各样的问题。在全球十几个国家有几百万用户,每秒需处理几千个事务,系统问题及系统崩溃常有发生、避之不及。


  但是,有些共性问题是我们经常碰到,经常处理的,基本上这些问题可以归结为四大类问题,如可靠性问题、系统性能和系统扩展问题、系统安全问题以及成本问题。


  可靠性问题


  对于可靠性问题,其产生根源众多,如过载、代码问题、服务器崩溃、数据库问题、带宽、硬件、云问题、CDN、数据中心问题等。我们也见证过一些系统更新,还未经完善测试便加以运用所带来的问题,这些问题是人为的,由程序员、内容编辑人员、游戏开发人员甚至是我们的成员所造成的。


  从长远来看,我们最大的也是经常碰到的问题便是磁盘空间问题。客户数量激增、博客量也骤增。不管你提供多大的磁盘空间,为了处理数据及其它事务,他们会把磁盘空间消耗殆尽。所以,我们就像其它的系统管理员一样,竭尽所能,想尽一切办法增大磁盘、增加存储空间。所幸的是当今的3TB磁盘真的很大,可不幸的是数据文件也很大而且采用云储存代价很高。所以我们经常接到此类通知,配合客户需求,手动或自动清理存储空间。


  数据库问题是另一个司空见惯的问题。从过载到常见的复制问题。客户经常误解复制、不明白复制需求及复制效果,所以经常产生问题,而我们也就一直不断地来解决这些问题,包括使用新型的探测、监控及管理工具使系统正常运行、保证数据准确性。这一工作变得越来越重要,因为数据在电子商务及广告业变得越来越关键、越来越面向财务。


  其它的可靠性问题还包括PHP,Java及其它Django问题,当然还包括系统崩溃以及我们日常监控、管理及解决的问题。特别对于中国而言,我们每天要处理的主要问题就是带宽问题,带宽时而好、时而差、时而又恢复正常。同时,在中国某些地区,带宽问题一直存在,前一秒连接的很好,后一秒就断线了。在今天,要恢复连接,通常至少要联系数据中心、电信部门、还要弄清楚要连接什么和什么。


  系统性能和可扩展性问题


  系统性能问题包括超负荷,就是常见的CPU、RAM及IO被大量占用;很多用户(有时是同一天同一时间)登录到客户网站造成了各种问题。在无边无际的互联网世界中,可谓事事难料、变幻莫测。


  经常碰到的问题就是:


  写的很差的PHP代码突然增加了负载,造成系统CPU不够;或某些程序占用空间大,导致RAM不够;以及SQL很差,没有索引,使数据库崩溃,无法处理并发事件、上锁甚至是进行输入输出操作。


  系统扩展问题有别于其它问题,为应付未来几天、几周甚至几个月的事务增长,而需快速建立或扩展系统时,更需另当别论。因为通常情况下,系统架构时并未考虑此事,负载均衡做的很差,甚至没有负载均衡,或者是没有便携式PHP/Java会话而导致无法实现均衡。


  经常有客户到我们这里说,他们的系统遇到“瓶颈”了,前一分钟还运行的很好,然后,突然有一天因为过载崩溃了。从理论上说,不应该出现这种情况,但是,如果使用的监控软件很差,无法显示系统是否接近系统上限的话,那么这种情况就会经常发生。不幸的是,系统CPU使用量在95%和100%时,用户体验是截然不同的:95%时,可能系统运行的有点慢,而在100%时,系统就根本无法工作。


  系统安全问题


  系统安全一直是一个挑战,虽然我们的系统从总体上来说很安全,但是,我们的客户使用的代码不安全,使用的附加工具,如Cpanel或各类管理界面如PHPMyAdmin也不安全。所以,我们一不留神,这些坏蛋就有了可乘之机,有道是:“千里之堤毁于蚁穴。”


  所幸的是,我们的安全是多层次的,而且所分配的权限是最低的,所以,对系统安全的破坏性很少发生。但是,偶尔也会有系统破坏,我们就必须清理系统,更改授权,增加客户日志及安全监控器等等。有时,我们还做审计工作,查看是否有黑客存在及其藏匿位置。


  成本问题


  最后,我们经常遇见的问题就是如何节省开支。这不算是技术问题,但是,我们经常发现客户在系统及服务器上花费颇多,甚至花过多的冤枉钱。他们会因为系统慢,自己不知道如何解决或调试系统;或者虽然站点功能颇多,但是却不知道如何将其虚拟化并置于私云中,所以就采购了许多服务器。


  在此,我们通过调试系统便可以对其进行扩展,而无需购买新系统,或者以更经济的创建私云的方式扩展系统,便可为客户节省大量开支。