探索中国CIO人才现状 | 第四季调研报告
Amazon启动胖存储实例用于大数据处理
2013-01-06  作者:至顶网 

  今年11月的re:Invent用户大会上AmazonWebServices(AWS)曾经承诺交付的大数据存储实例现在已经开始提供,我们了解到了更多的一些细节——比如价格是多么的昂贵……


  Amazon还启动了DataPipeline服务,这是一款基于工作流的工具,用于在不同的AWS服务之间迁移数据,以及数据在第三方数据库和数据存储的输入和输出。


  这次提供的HighStorageEightExtraLarge实例(简称为hs1.8xlargebyAWS),拥有117GB虚拟内存,24个2TB硬盘,总存储容量48TB。而且有16个虚拟核心,总共35个EC2ComputeUnits(EC2s)处理能力,大约是8XLEC2实例的一半还不到。AWS在一篇博客中表示,这些物理服务器中的逻辑驱动器通过定制的Xen管理程序交付2.4GB/s的IO性能,为AWS云上的所有EC2实例提供支持。


  Amazon建议,使用这些HaighStorage实例的客户要开启RAID1镜像或者RAID5/6数据条带化及奇偶校验保护,以确保数据的安全性,并进一步表示,像Gluster(如果你使用的商用版本,也就是RedHatStorageServer)这样的集群文件系统,或者像HadoopDistributedFileSystem(HDFS)这样的分布式存储系统以保证容错。而且,正如你所期望的,Amazon还希望客户将保存在这些存储密集型计算节点中的数据备份到它的S3对象存储中。


  Amazon表示,HighStorage实例主要针对Hadoop数据处理、数据仓库、日志处理以及地震分析工作负载这样在在节点上有大量落存储以及高顺序I/O很重要的场景。


  目前HighStorage实例仅面向Amazon在弗吉尼亚州北部的美国东部地区,全球其他地区将在未来几个月内获得这种胖存储节点。


  当然,它价格不菲,运行Linux的按需实例每小时4.6美元,运行Windows的是每小时4.931美元。一个运行Linux上的普通8XL实例(也就是ClusterCompute实例)价格是每小时2.4美元,运行Windows的是2.97美元。这些8XL实例的计算能力大约是两倍,但不是任何逻辑存储。美国东部地区的定价是基于EC2的,其他地区则有不同的定价。‘


  HighStorage实例正在被用于Amazon自己的Redshift数据仓库服务中,同时也是ElasticMapReduceHadoop服务的选项之一。


  此外,Amazon还启动了它的DataPipeline服务供客户使用。该服务提供了这样一个工作流,可以自动迁移来自AmazonS3、RelationalDataService数据库、DynamoDBNoSQL数据存储库以及ElasticMapReduceHadoopery的数据,或者信息从应用迁移到这些数据库中,或者跨这些不同的服务,因为数据是面向不同应用进行处理和分类的。


  DataPipeline想EC2实例那样有一个免费使用层,目前只面向美国东部地区,就像上面的胖存储服务一样。你可以免费地运行5个“低频率”的活动,意味在规划中这些活动每天运行不多于一次。高频率层不是免费的,也就是每天数据迁移超过一次。


  你必须使用Amazon的图形工作来构建在不同服务之间迁移数据的管道,低频率数据迁移的费用是每个月60美分,高频率数据迁移的费用是每个月1美元。此外,你还必须为你创建但没有使用的每个非活动管道支付每月1美元的费用,如果你希望迁移出这些数据或者从外部数据来源迁移进的话,那么低频率数据迁移的费用是每个月1.5美元,如果每天频率超过一次的话费用是每个月2.5美元。


  DataPipeline服务的费用并不包含带宽或者AWS核心基础架构服务相关的存储费用。