探索中国CIO人才现状 | 第四季调研报告
基于数据挖掘及其在超市CRM的应用
2013-12-13  作者:cio 

  前言


  随着信息处理技术的不断发展,信息的存储、管理使用和维护显得越来越重要,而传统的数据库管理系统很难满足其要求,表现为:数据量成几何级数的增长,不同部分的数据难以集合,访问数据的响应性能不断降低。要使数据能够发挥其最佳功效,更好地为用户服务,数据仓库的出现为用户处理所需要的决策信息提供了一种有效的方法。


  1相关理论和技术基础


  数据挖掘的定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。


  数据挖掘其实是一个逐渐演变的过程。电子数据处理的初期,人们就试图通过一些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过程就是将一些已知并成功解决的问题作为范例输入计算机,机器通过学习这些范例,总结并生成相应的规则。随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程。知识工程不同于机器学习,不是为计算机输入范例,由其生成的规则,而是直接为计算机输入已被代码化的规则,而计算机是通过使用这些规则解决某些问题。专家系统就是这种方法所得到的成果,但有投资大和效果不甚理想等不足。20世纪80年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上。并将其成果应用于处理大型商业数据库,出现了数据库中的知识发现,简称KDD(KnowledgedDiscoveryinDatabase)。它泛指从所有数据源中发掘模式的联系和方法,人们接受了这个术语。1995在美国计算机学会(ACM)上,提出了数据挖掘(DM,DataMining)概念作为知识发现过程的关键步骤,但是现在人们对于KDD和DM这两个概念通常不加以区别,所以往往混用。


  2数据挖掘中的聚类算法


  聚类算法是本文重点研究的对象,通过介绍聚类算法的一些基本原理和概念,将此算法在CRM系统中作出一个应用。


  聚类:聚类是开始分析的好方法,特别是面临大量复杂的可能有很多内部结构的数据集。通过使用这种方法,分析者可以将一个大问题按照特征分成一组。,这些聚类提供了对其中成员的描述。通过提供分类这些聚类的方法,我们就能够对问题有个大致的了解。聚类就是将物理或抽象的集合分组成为由类似的对象组成的多个类的过程。聚类的结果是使同一个类别内的对象具有较高的相似度,而不同的类别的对象之间差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。


  2.1CRM的概念


  CRM的核心内容是通过不断地改善与管理企业销售、营销、客户服务和支持等与客户关系有关的业务流程,提高各个环节的自动化程度。从而缩短销售周期,降低销售成本,扩大销售量,抢占更多市场份额,寻求新的市场机会,最终达到从根本上提升企业核心竞争力的目的。


  2.2数据仓库的特点


  数据仓库是面向主题的主题,是指用户使用数据仓库进行决策时所关心的重点方面,如工业情况、农业情况、整个高科技园发展状况等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。


  数据仓库是集成的:集成,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,是经过系统加工、汇总和整理,保证数据仓库内的信息是关于整个系统的一致的全局信息。


  数据仓库是稳定的:稳定,是指一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。


  数据仓库是随时间增长的:数据仓库包含历史数据,是指数据仓库内的信息并不只是某一时点的信息,而是系统记录了从过去某一时点(如开始应用数据仓库的时点)到目前各个阶段的信息,通过这些信息表明发展历程并对趋势做出定量分析和预测。


  在本文的CRM系统建模中,建立超市的数据仓库是一个关键的步骤。


  3聚类算法与层次分析法


  3.1K-means聚类算法


  K-means聚类算法的基本思想


  假定需要聚类的对象共有n个,把n个对象分为C个簇,以使簇内有较高的相似度,而簇间的相似度较低。相似度的计算根据一个簇中对象的平均仿(被看作簇的重心)来进行。其基本思想是:首先随机从数据集中选取C个点作为初始聚类中心(数量C是在算法运行前确定的),然后对剩余的每个对象,根据其与各个簇中心的距离,将它赋予最近的簇,重新计算每个簇的平均值。


  这一过程不断重复,直到准则函数收敛。


  3.2层次分析法


  3.2.1层次分析法的历史


  层次分析法(AHP)是将决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。该方法是美国运筹学家匹茨堡大学教授萨蒂于本世纪70年代初,应用网络系统理论和多目标综合评价方法,提出的一种层次权重决策分析方法。


  3.2.2层次分析法的特点


  层次分析方法的特点是在对复杂的决策问题的本质、影响因素及其内在关系等进行深入分析的基础上,利用较少的定量信息使决策的思维过程数学化,从而为多目标、多准则或无结构特性的复杂决策问题提供简便的决策方法。尤其适合于对决策结果难于直接准确计量的场合。


  k-means算法和层次分析法结合起来为实现在超市的CRM(客户管理系统模型)的应用,所以下面章节就超市CRM(客户关系管理系统)进行建模。


  4基于聚类算法和层次分析法在CRM系统的应用


  K-means聚类算法在超市CRM的实例分析


  (1)算法:K-means聚类算法。划分的K-means算法基于簇中对象的平均值。


  (2)输入:簇的数目k和包含n个对象的数据库。


  (3)输出:k个簇,满足平方误差准则最小。


  (4)对于数据对象集{x1,x2,x3……xn},随即选取k个初始化中心{y1,y2,y3……yn}作为初始簇的中心。


  repeat计算各样本到聚类中心的距离,对于任意点x,存在Y,,使得其满足式


  (8)until不再发生变化。


  K-means聚类算法为一种解决聚类问题的经典算法,这种算法简单、快速。尝试找出使平方误差函数值最小的k个划分。作当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。对于处理大数据集,该算法是相对可伸缩的和高效的,因为它的复杂度是O(nkt),其中,n是所有对象的数目,k是簇的数目,C是迭代的次数。


  通常地,而且t<n。这个算法经常以局部最优解结束。


  应用k-means算法和层次分析法得出用户潜在价值的过程。系统在处理海量的顾客数据后,可获得可靠的信息支持策略和商业决策,竞争对手很难效仿这些决策,因此超市可以在竞争中表现出优势。


  5结束语


  数据挖掘是信息技术发展到一定阶段后产生的新兴技术,它是从大量的实际应用数据中,提取隐含在其中的有用的信息和知识。作为一项决策支持的新技术,目前在国际上对该领域的研究相当活跃。聚类分析是数据挖掘的重要内容,也是数据挖掘领域内最为常见的技术之一,它既可以作为单独的工具以发现数据源的数据分布信息,也可以作为其他数据挖掘算法的一个预处理步骤,因此研究聚类算法的性能具有重要的意义。