探索中国CIO人才现状 | 第四季调研报告
微软全新Analytics Platform System解读
2015-07-30  来源:techtarget

在过去的几十年里,数据仓库一直是企业信息与决策支持系统的核心组件。这些中央知识库包含了企业信息与决策制定中所有重要的数据(内部与外部)。然而,在现今如智能手机、电视、手表、笔记本电脑、平板电脑、桌面电脑和游戏设备等各种设备互联的环境中,再加上如Twitter、Facebook、linkedIn、普通文件、博客、网站、系统日志和传感器等各种来源的数据,数据增长已经成为公司目前面对的三大主要挑战之一。组织内部数据的指数级增长,致使传统数据仓库已经达到一个关键临界点——需要大量的资源投入到硬件、优化、支持和维护中。

而且,在最近几年中,一些组织使用ApacheHadoop处理各种来源的大数据,如博客、传感器、社交媒体、系统日志及其他设备。然而,传统数据仓库不允许最终用户查询结构化和非结构化数据。这意味着最终用户不能收集和分析数据,无论是什么样的规模和类型都一样。此外,传统数据仓库并没有针对低延迟大容量数据负载和高吞吐量复杂分析工作负载进行优化——而这是大数据的需求之一。

Analytics Platform System:一种现代数据数据仓库

为了满足企业需求和帮助组织迁移到一个针对低延迟大规模数据负载和高吞吐复杂分析工作负载的现代数据仓库,微软在2014年4月推出了Analytics Platform System(APS),也称为ParallelData Warehouse(并行数据仓库,PDW)。APS是一个针对现代数据仓库需求的高性能和可扩展的并行处理设备。这个认证的硬件平台在一个设备上集成了SQLServer PDW软件(SQL Server专门为了在APS中运行的大规模并行处理版本)和一个可选的HDInsightHadoop平台(基于Hortonwoks Data Platform的Windows版微软Hadoop产品)。APS的大数据功能及其包含的PolyBase支持使用标准的SQL查询去访问Hadoop数据和加入关系型数据,而不需要将数据预加载到数据仓库中。这种在传统数据仓库和大数据部署环境之间实现的无缝整合使APS成为一个主流的企业级大数据平台。

此外,APS还支持一些新场景,包括使用Power BI建模、可视化和协同工具等去处理本地数据集。例如,原生微软BI集成允许最终用户使用熟悉的工具去分析关系型和非关系型数据,如微软Excel。

Analytics Platform System的新特性

APS可以处理最大规模的关键任何需求,因为它是一个大规模并行处理设备,可以并行和分布的方式去处理高度并发和复杂度的查询。SQL Server PDW运行在APS设备之内,它使用内存内和可更新的行存储索引去改进了数据加载和查询响应时间,最多比传统数据仓库系统高50倍,从而允许最终用户将查询时间从几小时缩短为几分钟,或者从几分钟缩短为几秒钟。

APS在软件中内置了可靠、可扩展和高性能的存储特性,它们降低了硬件成本——而且它内置了支持容错的硬件冗余性。此外,穿点设备还能帮助组织减少数据中心和管理成本,因为它组合了关系数据仓库和Hadoop。APS提供了内存内可更新的字段存储索引,支持高达15倍的数据压缩率,最高可以节省70%的存储需求。

APS是一个基于机架的系统,因此不会过多购买容量,一开始可以只使用四分之一的机架,它支持修改设备容量大小,然后将来在需要时可以使用传统SQL Server系统横向扩展的相同工具来扩展它的大小。微软与戴尔、惠普和Quanta合作设备了APS,而微软是客户获得硬件和软件支持唯一联系方。因此,作为一个数据仓库设备,APS提供了单位存储空间最低价格的用户可用存储(压缩后)。