一、前言
从中国目前的市场来看,数据仓库/商业智能已经浮出水面,从概念走到了实施的阶段。目前,国内数据仓库项目的实施软件厂商大体有两类:一类是基础软件提供商,象Sybase,Oracle,Microsoft,SAS,Brio,BO,Cogonos等国外厂商,一类是国内的软件集成商和软件开发商。而在此之前,许多软件集成商与开发商并没有实施数据仓库的经验,对于数据仓库/商业智能的认识仍然停留在概念之上,对于众多的数据仓库软件没有深入的了解,对在实施过程中可能遇到的困难无法估计。本文首先就数据仓库的概念,技术需求,以及市场发展做一简要介绍,接着对数据仓库应用的核心软件-数据管理软件以SybaseIQ-M这一市场领先的产品为代表介绍其特点及其与其他相关产品的对比,同时简要介绍Sybase与Sun公司联合推出的全球最大的数据仓库参考架构,期望能在实施过程中提供帮助。最后,以数据仓库的设计为重点,介绍实施数据仓库项目的整个过程及其相关的工具软件。
二、数据仓库/商业智能的概念与市场
利用完整的信息及时作出正确的决策,这就是数据仓库所要完成的任务。在经历了多年以业务为主的系统建设以及以强调数据收集为主的数据仓库建设之后,目前普遍认为,数据仓库正向新的第二代数据仓库过渡,而且很多学者专家认为,传统的以事务处理为主的应用,其重要性正退居其次,这种共存的体系构成所谓的'闭环决策处理系统'。其基本特征为:
1)BI成为事务处理的完整部分要得到有关实施某一任务的忠告建议或步骤,就需要更接近实时的数据更新,即席查询,甚至人工智能。BI已经逐渐成为事务处理的完整部分。从技术上来讲,对数据管理,数据备份,快速加载,系统升级等提出了更高的要求。
2)多层面的用户扩展数据仓库面向的使用对象将不再局限于企业管理层,随着Web及Internet的不断发展,通过Web方式向分布式企业的各类人员,及其供应商,经销商,客户提供必要的商业智能应用正成为必需。用户层面的扩展同时带来了大量的用户并发。从技术上来讲,对数据仓库应用的并发性及可伸缩性也提出了新的要求。
DMReview最近的调查(如图)指出,各类用户对商业智能都表现出强烈的需求。
3)数据的融合从DMReview最近的调查可以看到,人们希望商业智能能够提供各方面的
分析,包括财务分析,客户关系分析,供应链分析等,而目前大多数CRM,ERP等软件的供应商也纷纷表示自己的系统中包含BI。数据的融合和完整的数据仓库正成为趋势。从技术上来说,对数据仓库的存储规模与查询性能提出了更大的挑战。
4)强调数据模型的设计在传统的数据仓库建设中,往往强调数据的收集以及前端的数据展现,而对数据仓库的设计与建模关心不足,造成系统升级困难,甚至项目实施的失败。当前数据仓库的实施,设计与建模已经得到最终用户的高度重视,因为成功的设计对数据仓库的实施来说可以达到事半功倍的效果。然而成功的设计需要正确的设计方法,大量的需求调研以及丰富的实施经验,这是大多数厂商在实施过程中尤为头疼的问题。目前,只有Sybase公司提供了近乎完美的行业数据仓库设计模型IWS。IWS在欧洲已被广泛应用,近期在中国国内的应用已经受到了用户的广泛关注。
三、数据仓库/商业智能应用的核心软件-数据管理软件
面对新的商业环境提出的挑战,全球领先的企业基础架构供应商Sybase公司不断以最新的前沿技术指引数据仓库的发展方向,满足最新的技术需求:
1)海量数据的存储与访问2)大大提升的查询性能3)强大的并行处理能力与伸缩能力4)企业级的数据管理与性能保证5)…
SybaseIQ-Multiplex--专为数据仓库设计的数据库在许多新技术的应用上几乎可以称为数据管理与访问的新的革命。
1)垂直存储技术数据的列式存储有利于提高按范围查询的效率正如图所示,SybaseIQ是按列而不是按行存储和访问表数据。决策处理中的很多查询只需要很少量的列数据,因而与传统的RDBMS相比,这种方法在选择满足查询条件的数据时,只须涉及到很少的数据页面。举例而言,当处理SQL的某个LIKE子句时,SybaseIQ只需扫描某个列值而不必扫描完整的一批逻辑记录。这种列式数据存储方法使表扫描已不再需要。相反,查询处理是通过对相应一组所谓的位映射(bitmap)数据作比较和/或扫描而完成的。这种方法将带来明显的性能改善。
数据的列式存储有利于数据的压缩按列存储数据时由于相邻接的字段值具有相同的数据类型,所以使SybaseIQ更容易对数据作压缩处理。但在传统的按行存储数据的情况下,就不可能有这样的效果,因为列与列之间数据类型通常是不同的。数据压缩的另一好处,是经去规范化处理而形成的表不会对磁盘空间有过量的要求,因为重复的数据经压缩实际上就消除了。数据的列式存储所带来的另一好处,是当需要一列新数据时不会引起数据库结构的改变,而对于很多传统的RDBMS而言,在这种情况下数据库结构的改变恰恰是免不了的事。
2)专利的BitWise索引及数据压缩技术比特式(bit-wise)索引及相应的压缩技术是Sybase的一项专利。SybaseIQ运用这一技术对数据仓库中的所有字段建索引,由此不仅带来查询效率的大幅度提高,而且还降低了对磁盘空间的占用。
比特式索引能降低对磁盘空间的要求在传统RDBMS中,不仅实际数据占用磁盘空间,相应的索引也占用磁盘空间,在总量上后者超过前者的情形并不鲜见。但SybaseIQ的比特式索引根本无须增加磁盘空间,因为SybaseIQ中的索引就是数据库。尽管这类索引所需的磁盘空间因应用的不同而不同,但SybaseIQ数据库(包括索引在内)所需的磁盘空间的总量几乎总是低于输入数据的总量。
无处不索引大大改善查询效率IQ-Multiplex基于列的类型,基数,使用方法提供多种索引类型,每个列可以建立多个索引,索引即是数据,数据即是索引,数据的存储按照二进制存储,其存储方式与索引方式完全不同于传统的RDBMS系统,极大的改善了查询效率与数值运算效率。目前Sybase-IQ支持多达六种不同的索引类型。
3)新的多线索体系增加系统的伸缩性SybaseIQ的多丛结构(见图),是为了提高并发性而设计的。IQMultiplex使用一个标准的AdaptiveServerIQ(IQ)引擎(作很小的修改)来创建共享磁盘,多节点,并行数据库系统。Multiplex可以被看作是标准的IQ的一个扩展(选项)。
共享磁盘,非分区的IQMultiplex体系结构IQMultiplex表示连接到一个共享IQ存储区的多个IQ节点。每一个节点访问整个的数据库,并且对它直接进行物理存取,因此,它没有被水平分区(不象MPP非共享架构)。
有两种类型的节点:写节点和读节点。写节点拥有全部的数据库锁,执行DBA任务,是唯一的能够更新数据库的节点。写节点可以提高数据装载效率和速度,写节点拥有更新锁这一事实完全地消除了传统的关系型数据库中所存在的锁系统开销。
节点与节点之间的零冲突
IQMultiplex的每一个节点由于使用它自己的CPU和内存资源运行,因此,确保了每个节点之间的零冲突。一个查询在它被连接的节点客户机上完成;其它的节点不参与查询工作(单个的查询不需要跨多个节点)。因此不需要昂贵的,复杂的,高速的节点间互连。
IQMultiplex与"非共享的"MPP(大规模并行处理)之比较
IQMultiplex共享磁盘,不需要对数据库进行分区。MPP系统由于需要对数据表进行水平数据分区,因此,大大地增加了工作量及维护和管理数据库所需的成本。IQMultiplex不受错误的数据和查询的影响,与MPP系统不同,它能够有效地管理不同规模的节点。
4)可伸缩性测试IQMultiplex的实际运行性能测试表明,它具有97%至100%的额外节点伸缩能力,而在类似的环境中,传统的关系型数据库只有50%至70%的伸缩能力。
从轻负荷(任意一个节点以100%的速度运行,其它节点都处于停顿状态)转换到满负荷(所有节点都以100%的速度饱和运行),响应时间增加了1%至2%,因此,提供给我们的伸缩能力是97%至100%。
四、已经证实的全球最大的数据仓库解决方案参考架构为适应当前商业环境的新挑战,Sybase公司与Sun公司联合推出了企业数据仓库参考架构。这个参考架构在稳定性,扩展性,管理,实施,投资保护与TCO节约方面建立了新的标准。该参考架构硬件部分由Sun公司先进的服务器与存储设备组成,软件部分选用Sybase的IQ-Multiplex。实施该参考架构,可以:
-节约75%-90%的存储设备-查询速度提高1000倍以上-减少安装部署时间80%(在几年而不是几个月的数据量下,与传统的数据仓库实施相比)
表格显示了加载到SybaseIQ-Multiplex中的源数据的数据量为48.2TB,16张事实表,10张维表以及1790亿行的数据,数据主要为沃达丰的CDR记录。在存储方面,IQ只需使用22TB的磁盘空间即可容纳48.2TB的裸数据,压缩率为0.46。在对各种查询测试,并行测试,加载测试,读写同步测试等方面,IQ数据库均有优异的表现。详细介绍及测评报告请访问www.sybase.com.cn或www.sun.com。
Sybase和Sun不仅推进了技术的发展,而且还完成了一个实际的应用和客户可以实现的系统,把技术推进到一个从未纳入商业考虑范畴的程度,有效解决了数据规模不断增长时的一些问题如性能、扩展性以及总的投资成本。
五、数据仓库/商业智能应用成功实施的基础-数据仓库的设计在过去的几年中,许多分析型应用的实施具有高昂的成本和极大的风险,造成这一结果主要的原因是对数据仓库设计的忽视。在过去的数据仓库应用中,往往过于重视数据的收集,以及利用前端展现工具对数据进行分析展示。大量的业务数据与其他系统的数据无法有效的融合,而通过前端的展现工具无法有效组织数据,同时却需要为大量的查询付出高昂的效率代价。在数据仓库的实施与维护过程中,因缺乏有效的数据仓库设计与建模以及数据的组织与融合,往往使项目的进展止步。另外数据仓库的设计方法不同于传统的OLTP的设计方法,多维建模也只是对数据集市级的数据仓库项目有效,Sybase公司发明了独特的DWNF设计方法。同时我们发现每一个行业都有着相同的工作流程、测量方法、报告格式、术语和数据类型。
这些努力的成果是--SYBASE商用智能模型-IWSIWS设计为一个集成的应用软件包,可以满足分析不同但相互关联的客户的行为、价值和潜力等问题的需要。IWS设计的丰富性、灵活性和运行效率解决了关键问题,从而促进真正的、可以支撑的用户关系系统的开发。
IWS包含了完整的数据仓库设计方法学以及为各个行业的数据仓库实施建立了核心的业务数据模型与客户关系分析模型。目前已经成功应用于保险业、银行业、证券、电信、医疗卫生、零售业和政府部门。Sybase的IWS模型不同于其他公司的做法,它实实在在的提供了数据仓库设计的核心技术以及建立在充分的行业需求分析,正确的设计方法以及丰富的实施经验上的已经验证的模型。其他销售CRM,ERP等软件的公司目前所暴露的问题是无法真正适应企业的数据与应用环境,而企业却无法对此进行再开发而损失投资,而IWS真正找到了实施数据仓库的核心,允许开发商在IWS的基础上进行再加工,从而保护投资,提高软件的可用性与灵活性。如图显示IWS的基本结构由IWS核心模型、垂直行业模型以及商业智能应用三个级别构成。
通过经过验证的、详细的数据模型,IWS可满足你的特定的商业分析需要,在数据仓库的实施过程中:-减少风险、设计成本和实施时间。
-确保可伸缩性,数据集成和企业灵活性。
-采用设计完善的、适应未来的数据库,减少所需的硬盘空间。
-减少应用程序开发的复杂度并简化管理。
六、完整的解决方案及成功案例
Sybase以其领先的技术,丰富的产品以及与战略合作伙伴的软件集成,提供完整的数据仓库解决方案,如图所示,在需求分析与设计阶段,Sybase提供设计工具PowerDesigner以及已经验证的包含行业数据仓库模型的IWS,在ETL阶段,Sybase提供PowerMart这一市场最领先的ETL工具。IQ-Multiplex是市场上唯一的适应海量数据仓库的数据管理软件。Sybase公司与市场上领先的数据分析与数据挖掘软件供应商Bo,Brio,Cogonos,SAS,SPSS等结成战略合作伙伴关系,无缝集成伙伴厂商的软件产品。WarehouseControleCenter管理完整的数据仓库实施过程的数据设计,建摸,转换,存储,展现等各个阶段。这一完整的解决方案已经成功的应用于全球各个行业,在国内该解决方案在各个行业已拥有众多的成功案例,比如:
-广东电信运营分析系统-大鹏证券数据仓库项目-全国铁路客票系统-招商银行数据仓库项目等。
总结
目前,国内的数据仓库项目已进入实施阶段,希望本文的介绍能够给需要进行数据仓库建设的企业与实施数据仓库项目的各软件集成商和开发商提供有益的帮助。