探索中国CIO人才现状 | 第四季调研报告
CRM预测模型的评价与选择
2014-03-11  作者:万方数据 

  CRM(客户关系管理)是一个包括知识挖掘、市场规划、客户互动、分析与修正而循环不已的过程,其中,知识挖掘过程包括市场确认、客户区分以及客户预测。与能带来利润的客户建立持久的合作关系是CRM的核心,在建立这种持久的合作关系中,预测起着举足轻重的作用。预测方法的选择不仅与预测对象和目标的性质有关,与可能收集到的数据状况有关,也与预测的要求和条件有关。选择合适的挖掘技术和工具,对于未来系统的性能和可靠性有重大影响,不同的技术方案产生的结果模型有很大不同,模型结果的可理解性也存在很大差异。


  1预测模型的选择因素


  在选择一个预测模型的时候,要考虑许多因素。这些因素包括数据模式、预测目的、预测精度、预测的最远期限、采用此预测模型所要的费用,以及应用这个预测模型的难易程度等。


  1.1数据模式(即数据的特征)


  在选择一个预测模型的时候,数据模式是一个最主要的因素。对同一种数据模式可以应用几个不同的预测方法,而不同的预测方法都有各自适应的数据特征。


  1.2预测目的


  预测的目的,也就是预测的结果做什么用。


  1.3预测精度


  预测精度要考虑3个问题:在确定的环境下,使用某一种典型的预测模型能够达到多高的精确度;在这个环境下,采用什么样的方法能够提高预测精度;如果存在若干种提高预测精度的方法,如何选择一个适当的方法。


  1.4预测的最远期限


  预测的最远期限和数据模式有着密切的关系,不同计划期限的制定,包括不同的数据模式特征。对于不同期限的预测,各种因素的重要程度也是不一样的。任何一种预测方法的适用性依赖于预测的最远期限,而且还和预测精度、费用以及其他因素有关。


  1.5预测费用


  包括研究和开发模型的费用、数据的收集和储存费用,及反复应用这个模型的费用。


  2预测模型的数据特点


  常用于CRM的预测模型有:回归预测、决策树、神经网络、聚类和最近邻技术及规则推理,其他的预测模型(方法)还有时间序列分析、遗传算法、粗糙集理论、模糊理论等,而数据模式是选择一个预测模型时最主要的因素,因此,下面按定量数据(指用定距或定比尺度来衡量的数据)和非定量数据(用定类或定序尺度来衡量的数据)来进行对模型数据的基本分类,分别对一些预测模型的数据特点进行分析:


  2.1回归预测


  回归分析的数据是区间尺度(又称定距尺度),它的预测值是连续的。


  2.2决策树


  决策树很适合处理非数值型数据,它可以很容易的用于种类字段,但当种类的值较多的时候,效果可能会比较差,如果限制分枝的个数。决策树的效果还是不错的。决策树预测连续属性值时性能较差;不能分析和时间有关的属性变量。若用决策树来进行分类,需要保证数据具有互斥性和完整性。


  2.3神经网络


  可用于分类、预测、估值和聚类,一般适用于结构化数据。当输入为数值字段时,神经元网络将所有输入转化到0~1之间;当输入是种类字段时,神经元网络可以将种类字段转化成数值字段,但这样就给种类字段强加了一个先后次序;而当记录中的字段很多肘。神经元网络也会受其影响;当有多个依赖变量时神经元网络是最佳的选择;同时,神经元网络对时间顺序的数据的处理能力比较好。对非线性、有噪音的复杂数据分析效果良好;能处理规模较大的数据库;能预测连续数据,分类或聚类离散数据;能处理有噪音或属性值有缺失的数据。神经网络特别适合那些模糊、不严密、不完整的知识(数据)为特征的,或那些缺少清晰的分析数据的数学算法的问题。


  2.4聚类分析


  使用聚类分析时变量可以是连续或分类变量,对每个调查对象的数据应当是完整的。在可能的情况下,尽量避免用替代值填补缺失值,即使这无法避免,也应当意识到这会影响结果,因为这样所做的实际上是在编造数据。聚类分析中数据结构为数据矩阵和差异度矩阵,数据类型包括区间标度变量(Interval—scaledvariables)、二元变量(Binaryvariables)、标称型,序数型和比例型变量(Nominalordinal,,andratiovariables)以及混合类型变量(Variablesofmixedtypes)4种。


  2.5最近邻技术


  适用于非定量数据,能处理分类型数据,数字型数据和字符型数据。


  2.6规则推理


  非定量数据,适于处理大型数据。


  2.7时间序列分析


  时间序列分析在处理和时间具有相关性的情况时有独特的优势,用于处理有序随机变量或者有序数据,并且观测值之间不独立。


  2.8遗传算法


  可用于分类和预测,可以解决非线性、多变量、非连续、非可导空间上的优化问题。在所求问题为非连续、多峰以及有噪音的情况下,遗传算法的优势更加明显,它能以很大的概率收敛到最优解或满意解,具有较好的全局收敛性。


  2.9模糊集


  当精确输入不可能或太昂贵时,模糊系统就可以作为一种强有力的模型方法。


  2.10粗糙集理论


  粗糙集理论是一种研究不完整数据、不确定知识的表达、学习及归纳的数学方法。它为分析不精确数据、推理和挖掘数据问的关系、发现潜在的知识提供了行之有效的工具。它以各种更接近人们对事物的描述方式的定性、定疑或混合信息为输入,输入空间和输出空间是通过简单的决策表简化得到的。


  3预测模型的评价


  不同的模型有其各自适用的场合,因此在不同的预测问题中要根据具体的情况和模型的特点来选择预测模型。


  如果预测的结果是用于编制计划或做综合决策,理论上说,比较理想的办法是采用多变量预测模型。如果要预测的对象很多,采用单变量的预测方法比较切合实际。


  一般情况下。指数平滑方法和自回归——移动平均方法的预测精度都比较高,指数平滑方法用于短期预测能够得到良好的效果,能够达到最大的精确度。自回归——移动平均方法的算法比较复杂,它的优点是可以从模型中加以选择,而不必局限于一个特定的模型,缺点是在选择模型时需要具有比较丰富的经验和精通这种方法的人。


  单变量回归和多变毯回归模型的预测期限比指数平滑方法更远一些,可用于中期预测。它的另一个优点是能够反映两个或两个以上变量之间的相互关系,能够通过对一个变量的预测立即得到另一个变量的预测值。在建立多变量回归模型时,采用逐步回归方法具有良好的结果,它能剔除不重要的因素,从而使回归模型尽可能地简单。


  计量经济模型通常用作综合性预测,它的优点是对任何单一方程的自变量之间的相互关系,可以包括在其他方程式中,它们的数值可以同时确定。根据以上的分析,可以利用层次分析法来进行对预测模型的选择。层次结构模型见图1。


  在实践中,有时模型间的差别很小,选择最好的模型,是在模拟条件下对候选模型进行验证,模拟效果最好的就是最优的模型;在方法上,有时需同时应用几种方法,如因子分析往往和回归分析或聚类分析一起使用,聚类分析和判别分析结合使用等。