探索中国CIO人才现状 | 第四季调研报告
基于DW的决策支持系统
2013-11-21  作者:万方数据 

  本系统应用模型是浏览器/服务器(B/S)3层结构形式,即客户端、应用服务器和数据源服务器。

  (1)数据仓库的采集单元(pump)负责定期的通过企业内部网通信干线分布在网络各站点上的有关数据库收集最新的数据,并完成数据的净化与变换。考虑到DW中数据对象较为复杂且数量巨大,决策支持系统其他单元对DW的访问是通过OLAP服务器来完成的。使用OLAP服务器的目的是为了得到完善的多维数据管理,并提供简便快速且性能有保证的多维数据查询和分析,大大地降低了系统的数据传输量,提高了数据挖掘和决策分析效率。

  (2)知识库中的知识除了在系统建立之初输入之外,还由系统的数据挖掘单元不断地进行补充,与传统的DSS体系结构不同。在数据挖掘单元中,尽量使用已有的一些数据挖掘软件工具,如SAS,IBMIntelligentMines等。

  (3)在中间层设置Web服务器和知识服务器。用户通过HTTP协议访问Web服务器上的HTML格式的页面,而Web服务器则根据页面设置与用户要求向知识服务器提出决策需求。知识服务器是处理用户决策需求的综合服务单元,它根据用户需求向知识库和数据库要求相应的知识和数据,经处理后以Web页面的形式提供给用户。

  (4)在客户端,用户通过Web浏览器访问Intranet上的Web服务器来进行决策咨询。本系统的用户可分为两类:一类是一般人员,他们只需要了解一下企业总体情况以及决策支持系统对具体的一般性建议,服务器上的静态Web页面就可以满足他们要求。另一类是企业高层管理决策人员,他们除需了解各部门情况与相关统计以外。

  数据仓库的设计

  数据仓库与数据库虽然过程都要经历概念模型、逻辑模型和物理模型3个设计阶段,但在各个设计阶段所采取的方法却截然不同。根据上述系统数据仓库采用面向主题,即面向对象自上而下的设计方法。下面分别介绍3个模型设计阶段采用的建模技术。

  1概念模型的设计

  超立方体(Hypercube)可用超出三维的表示来描述一个对象(对象可以是客户、产品、营销策略等),它完全可以满足DW的多维特性。使用自上而下的方法设计一个超立方体的步骤如下:

  (1)确定模型中需要抓住的关键过程。

  (2)确定需要捕获的值。

  (3)确定数据的粒度,即需要获取最低一级的详细信息。

  当维数超过三维后,超立方体在表现上缺乏直观性,因此我们采用一种称为信息包图(Informationpackedpicture)的方法在平面上展开超立方体。使用信息包图设计概念模型的具体步骤如下:1确定指标:指标是访问DW的关键所在,是用户最关心的信息。它是表示在维度空间衡量商务信息的一种方法。2确定维度:维度提供了用户访问DW的信息途径,对应超立方体的每一面,位于信息包图的第一行的每个栏目中。3确定类别:类别是在一个维度内为了提供详细的分类而定义的,而其中的成员又是为了辨别和区分特别数据而设的,它表示一个维度包含的详细信息。一个维度内最低层的可用分类可以又称为详细类别。

  2DW逻辑模型的设计

  根据DW主要提供的是查询操作,选择星型图作为其逻辑模型,从DW的概念模型(信息包图模型)转换成DW的逻辑模型(星型图模型)的过程,可以分为以下几个步骤:

  (1)指标实体:指标实体位于星型图的中心,是用户最关心的基本实体和查询活动的中心,为用户的商务活动提供定量数据。每一个指标实体代表一系列相关事实,完成一项指定的功能,在一般情况下代表一个现实事物的综合水平,仅仅与每个相关维度的一个点对应。

  (2)定义维度实体。一个维度实体对应指标实体中的多个指标,用户使用维度实体来访问指标实体,其实质是对应着逻辑数据实体。一个维度实体对应信息包图中的一个列。

  (3)定义详细类别实体。一个详细类别的实体与现实世界的某一个实体相对应。

  (4)定义逻辑模型。定义逻辑模型的最后一步是将星型模型转换成雪花模型。限于篇幅,转换过程与图示从略。

  3DW物理模型的设计

  根据星型模型或雪花模型,就可以方便地定义出DW的物理数据结构。一般将指标实体和详细类别实体转变为一个具体的物理数据库表,称为事实表。维度实体通常也转化为数据库表,称为维表,它包括其每一层次的主码和对应的值。维表和事实表通过维关键字相关联。在物理模型设计阶段,需要确定以下的内容:

  (1)规定数据质量指标,规范数据仓库中的各种数据。

  (2)定义实体、实体特征以及实体所具有的一切属性。

  (3)定义规模,确定数据容量和更新频率。为了获得物理模型设计阶段完整的文档资料,可利用自动定义软件工具进行数据管理。

  基于数据仓库的医院决策支持系统

  1医院决策支持系统的体系结构

  (1)底层为数据获取层,数据源主要包括患者信息、药品信息、门诊信息、住院信息以及一些外部数据。外部数据主要包括竞争数据及国家的相关政策法规等,其它信息来自医院信息系统HIS。为保持数据一致性,必须对数据源中的数据进行清理、抽取、转换,生成综合性统一的数据类型存入医院DW。

  (2)数据存储层主要用来存储和管理加工处理后的面向决策主题的综合性数据,并按决策主题的需求进行重新组织,为决策支持提供大量的数据依据。

  (3)数据处理层包括模型库、数据挖掘、OLAP及其相应的管理系统部分。通过OLAP与DM从DW中得出有用的信息和知识。

  (4)数据访问层为决策者提供与系统交互的入口。把数据处理层得到的信息和知识通过人机交互界面展现给用户,主要包括用户交互、格式化查询及报表和统计图的生成等。

  2医院决策支持系统的数据仓库设计

  (1)数据建模

  在设计DW之前,必须先确定主题。主题是一个在较高层次将数据归类的标准,它能反映出分析对象所涉及的各项数据以及相互联系。经过对医院业务的仔细分析,我们确定了三个基本主题:患者主题、药品主题、费用主题,其中每个主题又可以划分为若干个子主题。根据不同的分析主题确定描述各个主题中可用于分析与决策支持的相应指标,即多维数据模型的事实表,并根据各个指标的约束因素,确定多维数据模型的各个维。以“门诊费用”主题为例,它含有时间维、科室维、疾病维、费用类别维四个维,形成了“门诊费用”分析的不同角度(某段时间、某个科室、某种疾病和某类收费)。事实表由这四个维的主键和一个度量值即“门诊应付费用总计”组成。一个事实表与四个维表联系起来构成了一个四维分析空间。医院决策支持系统的数据仓库的逻辑模型采用星型模型,每个子主题对应一个星型模型结构。星型模型由一个事实表和多个维表构成。

  (2)数据集成

  确定了DW的数据模型之后,下一步就是把源数据集成到DW中,具体的分为数据抽取、数据清理、数据转换和数据加载这四个步骤。其中数据抽取主要是通过网络把从HIS中提取出的数据传输到系统DW中。要完成以上工作,需利用MicrosoftSQLServer2000的数据转换服务DTS包组件,在包中指定源数据与目标数据间的映射关系,把数据转换和导入导出过程保存在存储过程中,让服务器自动、定期的执行。

  总结与展望

  现在很多企业己经开始建立数据仓库系统。但是,数据仓库建设的问题出现在两头,即:一方面是数据,国内数据库系统中数据积累还不够,作为数据仓库系统没有数据积累是没有意义的。另一方面是工具,无论是OLAP还是数据挖掘,都不太好用,不够大众化,另外由于建设数据仓库的费用巨大,相当数量的企业无法承受。如何研制一整套适合我国企事业单位的数据仓库整体解决方案,使企事业单位投入一定的经费,就有一定的收益,即边投入边产出,这是一个值得考虑的问题。

  对于网络蓬勃发展的今天,如何将数据挖掘的思想引入网络信息处理领域,在WWW上进行信息挖掘,这是极具诱惑和挑战的领域,是对互联网上信息再分析和利用的巨大贡献。在Internet上建立DM和KDD服务器,与数据库服务器配合,实现数据挖掘,加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据,这些都能更好的为决策者提供技术支持。