探索中国CIO人才现状 | 第四季调研报告
五个小升级满足大型数据中心需求
2015-05-14  来源:techtarget

不是所有的IT设施建设项目都需要大量的预算和长期的计划。下面这些相对便宜的升級建议能提高性能和可靠性。

IT主管总是想平衡数据中心的性能和效率,但时间和金钱是制约这两者的因素。

并不是每一个IT项目都要花费大量金钱和时间去进行的。一些快速简单的升级能使数据中心的性能有明显的效果,甚至可以作为新员工培训地点。

一、升级服务器硬件

内存或本地磁盘升级可以使得服务器更快和容易地提升性能或容量增加。

内存是虚拟化环境中的一种受限资源。服务器很少有完整插满整个主板的内存槽。在未使用的插槽添加内存可以改善现有虚拟机的资源紧张现状并适应未来的虚拟化服务器的发展。

固态硬盘(SSD)是一种前瞻性的服务器本地磁盘升级。固态硬盘极大地提高磁盘I / O和拥有更低的延迟。固态硬盘可以加速性能,如果一个服务器的工作负载主要依靠磁盘缓存,并不需要更换所有的磁盘,更好的做法是添加一些SSD在服务器的本地存储以消除性能瓶颈。

服务器固件升级是及时和免费的,但并不是所有的更新都需要升级。只有当补丁是解决你服务器某些硬件具体问题的时候才需要升级,并且要考虑操作系统的支持。检查资产管理库存列表中当前服务器的型号和固件版本,然后检查服务器厂商的网站并下载更新。在更新之前,检查升级的更新日志,确认更新解决了什么问题。一些外围设备或适配器也有可能需要更新固件。

除非支持热插拔,内存和磁盘将会有系统停机和重启的因素。所以升级内存和磁盘最好在计划的服务器停机时间进行升级。

升级磁盘来提高容量的花费可能不少,所以尽量把磁盘里不必要的内容定时删除,并把使用率较低的数据转移到低阶的储存是一个很好的办法。例如,临时目录与不需要的数据,通过清除/tmp(linux)和C:\windows\temp(windows)来节省磁盘空间。

二、优化线缆

随着网络带宽开始普及10G以太网(GigE),甚至25GbigE。原有基于1GigE带宽的CAT5和5E铜线已经无法满足新的数据中心需求。

在一些情况下,IT管理人员往往只注意高带宽的网络硬件,但布线却没有随着升级。

升级并不需要一次性换下所有老化的线缆,因为以太网布线是完全向后兼容的。在时间和金钱等条件的制约下,相对小量的更换可以换来更高的效率。在服务器上,10GigE网络在未来都将仍是主流,所以我们要把重点放在骨干网络上,特别是以太网以太网的iSCSI和光纤通道存储。例如,CAT 6电缆可以在55米距离支持10GigE的以太网,而CAT 6A和CAT 7电缆可以支持到100米,而这些升级并不需要新的网络适配器,交换机或其他部件。

超过40GigE带宽的长距离传输需要昂贵的光纤管道及专业技能部署和整合,这需要作为一个正式项目的投资评估。

要区分新老双绞线电缆最好通过彩色胶套或另外的标签来区分,必须清楚地标记线缆或标签接线板。

三、增加各种监控设施

数据中心的基础设施管理(DCIM)工具用于监控各种设施的电气性能和环境温度等等。

DCIM需要大量传感器放置在数据中心。这些工具可能会触发预定的容灾事件自动响应,如服务器过热发出警报,水冷设备回路泄漏。所以应该填补缺少的传感器。

从下面列举的传感器,你可以看看缺少了什么?

•机柜/机架温度监控传感器

•用于监控空气干燥/冷凝水平的传感器

•水冷设备所需的水分(液体)传感器

•店里试试监控和跟踪的传感器

•确保风扇和过滤器正常运行的空气流量传感器

•用于动态监控、发现非法进入者会发出警报的传感器和监控设备

•防止火灾的烟雾传感器

•硬件设施可使用电子标签作为资产登记

在数据中心的费用预算里,监控往往是最后增加的预算而被缩减,所以数据中心的传感器和监控很有改进的余地。

新型传感器可以进行快速、无损的安装,让增量成本保持最小和时间效率变得更高。

四、提高数据安全性

操作系统和应用程序的安全更新对于管理员来说已经不陌生,但有时候这种低级重复性的任务会使得数据中心的其他任务因此而延期,如日常消防和其他更复杂的项目。

定时检查每个服务器系统的漏洞报告和最新补丁,假如有自动化工具就更简单,如WSUS服务器可以对整个网络里的Windows服务器进行自动补丁推送。

虚拟化平台底层的更新,例如当虚拟机迁移到VMware vSphere 6可能会因为测试而延迟。这时需要检查硬件和软件虚拟化服务器,以验证他们是否支持新的需求,并完成测试环境的测试,这样才能无缝迁移到生产环境。另一种简单的方法是更新虚拟机服务器的VMware工具至当前的ESXi版本。

还有一些其他的安全增强功能:检查并修复文件权限,重置Active Directory老用户或不准确的记录等。这些动作对正在运行的服务构成的风险很小。

五、检查和改进流程

现代的数据中心通过概念推动进程。执行策略和程序以减少误差,无论是谁执行工作都可以保持结果的一致性。随着越来越多的IT部门开始使用基于脚本的自动化工具(如PowerShell)来处理复杂的工作流,工作流程的实际步骤会变得容易被遗忘。

进行消防演练来验证现有基础设施的容灾。这时灾难恢复(DR)和可恢复系统尤为重要,如服务器集群系统。测试服务器故障转移集群的功能可以在主备服务器之间进行测试切换。

在数据中心,周末进行定期维护可能是一个很好的时间段,可以用来测试备用数据的正常,因为在日常的工作时间,许多数据中心不允许有中断时间。在故障来临之前将容灾测试工作做好是非常重要的。