探索中国CIO人才现状 | 第四季调研报告
数据挖掘技术应用初探
2014-03-11  作者:万方数据 

  1数据挖掘技术概述


  1.1什么是数据挖掘


  数据挖掘是探查和分析大量数据以发现有意义的模式和规则的过程。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们所不知道的但又是潜在有用的信息和知识的过程。简而言之,数据挖掘实际上是一种深层次的数据分析方法。


  1.2数据挖掘的主要步骤


  1.2.1问题定义。数据挖掘是指在大量数据中发现有用的令人感兴趣的信息,因此哪种信息是我们感兴趣的,就成了数据挖掘的首要问题。


  1.2.2数据准备。数据准备又可分为三个步骤,即数据选取、数据预处理和数据变换。数据选取的目的是根据用户的需要从原始数据库中抽取一组数据。数据预处理~般包括消除噪声、消除重复记录、完成数据类型的转换等。数据变换的目的是消减数据的维数,即从初始特征中找出真正有用的特征。


  1.2.3数据挖掘。首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。


  1.2.4结果解释和评估。数据挖掘的结果有些是有实际意义的,而有些是没有意义的,或是与实际情况相违背的,这就需要对结果进行评估。


  1.2.5分析决策。数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。总之,以上的步骤不是一次完成的,可能其中某些步骤或者全部要反复进行,才有可能达到预期的效果。


  1.3数据挖掘可以完成哪些工作


  很多智能的、经济的以及商业利益问题可用短语表示为如下6类任务:分类、估计、预测、关联分组或关联规则、聚类、描述和建立简档。


  1.4数据挖掘的方法


  1.4.1决策树方法。决策树算法是目前应用最广泛的归纳推理算法之一,也是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而比较易于理解。这种方法一般限于分类任务。


  1.4.2神经网络方法。神经元网络技术是属于软计算领域内一种重要方法,在数据挖掘的应用方面,当需要复杂或不精确数据中导出概念和确定走向比较困难时,利用神经网络技术特别有效。神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构,神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代或累加计算)。


  1.4.3遗传算法。遗传算法是模拟生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。


  1.4.4统计分析方法。在数据库字段项之间存在两种关系:(函数关系)能用函数公式表示的确定性关系和相关关系(不能用函数公式表示)但仍是相关确定关系。


  2数据挖掘技术在市场蕾销和客户关系管理中的应用


  2.1寻找潜在客户。识别好的潜在客户,为接近潜在客户选择沟通渠道,针对不同的潜在客户群,选择合适的信息。好的潜在客户不仅对成为客户感兴趣,他们还必须能买得起商品。成为客户对公司是有利可图的,并且不太可能欺骗公司而且会及时支付账单。所以,首要是定义具有什么特征的人是好的潜在客户,然后找出能够瞄准具有那些特征的人们的方法。通常是打电话、发电子邮件、寄明星片或是彩色目录。即使在销售相同的日用产品或服务时,对不同的人也要适当的提供不同的信息。


  2.2为选择正确的广告场所进行数据挖掘。寻找潜在客户的一种方法是寻找与现有客户类似的人。这些用户特征数据简称“简档”。决定一位客户是否匹配简档的方法,是衡量客户和简档之间的相似性,称之为距离。谚语“物以类聚,人以群分”可以作为市场营销的一个基本出发点。那就是,具有相似志趣和喜好的人居住在相似的地方。这一观点,在已存在客户、地区以及此类似的地区开拓市场是个好办法。


  2.3通过数据挖掘改进定向市场营销活动。针对潜在客户的数据挖掘应用的首要问题是确定目标——发现最有可能对优惠服务做出响应的潜在客户。响应模型通过识别潜在客户,即谁更有可能对直接诱导做出响应,来提高响应率。通过花费更少的资金,联系更少的潜在客户而得到更好的响应率来赚取利润。


  2.4使用当前客户来了解潜在客户。发现好的潜在客户的一个好办法是察看目前最佳客户来自哪里。知道当前客户过去是潜在客户时的特征是最重要的。在他们成为客户前就开始跟踪客户,通过网站站点能够实现。收集新客户被获得时的信息,关于最初购买日期、最初获得渠道、所响应的服务、最初的产品、最初的信用分值、响应时间、地理位置的搜集,是数据挖掘用到的最有效的内容。为获取时间数据和未来收益结构之间建立数据模型,利用数据挖掘,商家能够把获得时间变量与未来结构联系起来。


  2.5客户关系数据挖掘。一旦获得客户,公司的工作重点就转换为客户关系管理。现有客户的可用数据比潜在客户的可用数据更丰富,由于这些数据本质上更单纯的地理和人口统计学信息更具行为科学性,因而它具有更好的预言性。基于客户当前使用模式,数据挖掘可用于发现当前提供给他们哪些额外的产品和服务,也能对交叉销售和提升销售的最佳时机提出建议。


  2.6保持和流失。客户关系管理计划的目标之一是留住有价值的客户。数据挖掘帮助识别哪些客户最有价值,以及评估与每一客户相关联的自发流失或强制流失风险。掌握了这些信息,公司能将优惠服务锁定于既有价值又具有流失风险的客户,并采取相应措施避开可能违约的客户,保护自己。


  3总结


  总之,数据挖掘只是一个工具,但不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘在提高公司与客户形成学习关系的能力,进而改善客户管理管理中所起的作用。这种行为不可能凭空进行,必须依靠交易处理系统收集客户数据,用数据仓库存储客户历史行为信息,使用数据挖掘把历史数据转变成未来行为计划,然后通过某种客户关系策略将这一计划付诸实施。