预测分析型项目失败的12种原因
2013-07-29 作者:CIO发展中心 MaxTian编译
大中小
【CIO发展中心独家】无论你是预测分析的新手,或有几个项目在忙,一切都太容易搞砸。“绝大多数分析项目是漏洞百出。Elder Research数据挖掘公司首席执行官John·Elder说。
其中多数并非致命的问题,几乎每种模型都可以提高,但仍有许多项目惨遭失败,浪费了公司大量的软件投资和时间,却没有显示出收益。
我们调查了三家咨询公司-Elder Research,Abbott Analytics和Prediction Impact,来了解他们所遇到的最惊人的业务和技术失误。下面这12错误肯定会导致一个项目的失败。
1、开始时未想着最终的结果
你对预测分析感到兴奋,看到了它的潜在价值,但却没有特定的目标。这就是其中一个大公司所遇到的情形。尽管咨询公司同意帮助他开发可用的模型,但是业务部门中没有任何人要求他这么做。项目最终不了了之。
管理人员可能会因为自己的目的利用数据,但是他希望有人认识到数据的价值。其中的教训是:不要拿着锤子去找钉子,在开始之前就要有具体的目标。
2、把项目定义在数据不能支持的基础上
一家讨债企业想找出收回拖欠账款时最成功的行动次序。挑战在于:该公司拥有一套严格的规则,并且在所有的案例中都遵循了相同的程序。
“数据挖掘是一门有关比较的艺术,”Abbott Analytics总裁Dean·Abbott回应该公司为何退出该项目时表示,该公司每次都是采取完全相同的行为,Abbott无法了解何种次序会更有效。“我们需以往的不同例了来进行对比分析”。
如果没有这些例子,就需要有意来策划了一系列实验,以收集数据。例如,对于1000个欠债者,500个会收到一封威胁性的信件,另外500个会先用电话联络。“然后,可以建立一个预测模型,预测哪种债务人对威胁性的信件/电话有更好的响应,那些债务人对电话联络有更好的响应用。
这种情况下,相关特性可能包括债务的既往模式,支付以往债务所需要的日期、收入、居住地的邮政编码。基于预测模型、公司能够使用最佳而成本有效的策略来讨债,而非千篇一律。预测分析不能创建尚不存在的信息,而是需要先从试验开始。
3、先把数据做好,再接着往下走。
最常见的误解,是必须整理好数据,弥补好所有的漏洞,填补了缺失的数据,才可以着手预测分析项目。
一家全球化的石化公司,刚刚开始了某个极具投资回报潜力的预测分析项目。这时数据科学家们发现,该企业的业务数据状态比最初想像的更糟糕,缺少一个关键的目标值。如果公司等待收集好新的数据后再做该项目,进程会拖延至少一年。”很多公司可能会停在那里,这是多数项目中止的原因。“Deal说。
但是数据科学家习惯于处理混乱和不完整的数据,在多数情况下他们有方法绕过这些问题。这次该公司决定坚持下去。最终,数据科学家们找到了一种方法,从其他数据中派生出缺少的目标值。如果他们决定等待下去,那么项目很可能会被放弃,因为大家的优先级从来都是不断变化的,数据也一样。
4、审查数据质量时,未剔除垃圾数据
埃里克·西格尔是Prediction Impact咨询公司的总裁,著有《Predictive Analytics:The Power to Predict Who Will Click,Buy,Lie,or Die》一书,曾经帮助一家财富1000强的金融服务公司预测其呼叫中心工作人员的忠诚度。最初观察显示,根据历史数据,没有高中文凭的雇员职业稳定的程度是其它教育背景的2.6倍,持续工作的期限高出至少9个月。”我们差点要建议客户优先雇用高中辍学应聘者,“西格尔说。
接下来发现了两个问题。首先,数据是根据求职者简历手工键入的,存在一定的不一致。有一名数据录入人员检查申请者的所有教育背景,而另外一个只检查其最高的教育背景。让问题更复杂的是,出于某种原因,后一个录入者更多地标注了那些入职时间最长的员工。这些问题本来是可以避免的,只要确保他们的标注是随机进行的,并且采用了相同的标记方法。
记住:“进来是垃圾,出去也是垃圾。因此要认真检查数据,确保其完整性。”
5、用未来的数据预测未来
数据仓库的问题是,他们是不是静态的:信息在不断变化和更新,而预测分析则是感性的学习过程,依赖于分析的历史数据或“培训资料”来创建模型。因此,需要重建数据在客户生命周期中时的状态。如果数据没有日期戳和时间戳,则会很容易被未来的数据所误导。
一家地区性的汽车俱乐部就遇到了这样的情形,他们的本意是建立一个模型,预测哪些成员最有可能购买其保险产品。为了建模,该俱乐部需要重建早期的数据集,反映会员购买或拒绝购买保险的情况,后续的数据应该被排除掉。该机构创建的决策树包括一个含有电话、传真或电子邮件数据的文本变量。如果该变量包含任何文字,则可以100%确信,这些成员后来会买保险。
“我们被告知该指标在在会员购买保险之前就是已知的,但却不能告诉我们它的含义是什么,”参与该项目的Elder意识到这有点过于理想化,不可能是真实的,就继续追问,直到发现有人知道真相:该变量代表通过电话、传真或电子邮件取消了保险的会员。“除非你买过保险,否则不可能取消它。”因此在建模时,一定要锁定一些数据。
6、相信数据是完美的,要求加快进程
在预测性分析项目中,60%至80%的时间花费在数据准备上。分析师必须从各种来源准备数据、合并报表和数据,这一过程可能需要长达一年的时间来完善。有些组织相信其数据是高质量的,但Abbott从未见过任何组织的数据是真正完善的,问题总是从意想不到的地方出现。
以Elder Research在制药行业的一家客户为例,该企业对数据准备时间过长非常不满,要求加快进度。咨询公司作了让步,项目以更短的时间和较小的预算向前推进。但是,项目开工后不久,该公司发现了一个问题:部分订单的发货日期早于下单日期。“这些并非无法解决,但却需要时间来解决,”Deal指出,而所需要的时间并未在计划和预算中有所考虑。对项目负责人而言,要向管理团队解释清楚为何需要更长的时间,就会引起一个可度信的问题。
7、高调启动项目
一家大型制药公司确定了一项宏伟的计划,该计划是如此宏伟,以致于该公司认为它不可能失败。当他们开始建立内部的预测分析服务时,该团队的目标是“给医疗保健行业带来革命”。
但是该项目的目标过大,需要的初始资金也很大,对于一个新的团队更是如此。最终该项目在自身宏大野心的重压之下崩溃。因此,确定一个小的、现实的目标,获得成功之后再向前近非常重要。
8、建模时忽略相关领域的专家
普遍的误解是:要创建某种伟大的预测模型,只需将您数据插入到黑盒子里,奇迹就会发生。事实上,数据挖掘专家提供的模型,通常都是有缺陷的。
Abbott Analytics有一个电脑维修行业的客户,就遇到这种情形。该企业试图从客户的通话记录对问题的描述,预测维修人员应该携带的散件。
Abbott说:“语言往往很模糊,很难从中抽取关键的概念,用于预测建模,”该公司要达到90%的预测准确度,最初的尝试是基于文本中出现的关键字来进行预测。“我们为每个关键字创建了一个变量,以”1“或”0“来表示它在特定客户报修中是否出现。结果败的很惨,”
因此Abbott开始从技术人员那里寻找更多的数据。“秘决在于对现有的数据进行一定的处理,使其属性中包含更多信息,”他说。通过与行业专家的合作,他的团队想出了一种方法,获得成功。
“不是采用数百个稀疏的变量,而是将其凝聚成信息更加丰富的变量,与部件的历史关系进行绑定。”Abbott解释道。事实上,对某个部件历史上被使用的机率和维修记录中的关键字进行了匹配。
“我们所做的是让数据更符合专家的意见,而不是仅仅依靠算法来做决定。这是我们经常采用的技巧,因为算法只适合将一些模式进行整合。”他说。
9、假定数据的拥有者会全面合作
许多大的预测分析型项目之所以失败,是因为发起人在动手之前没有在人员关系上做好所有的铺垫工作。往往最大障碍是数据的拥有者,也就是能够控制数据,或企业应该如何使用这些数据的人。ElderResearch的一个客户,一家短期借贷公司就是由于内部的意见不和,摔倒在起跑线上。
“自始至终,我们都受到IT主管的质疑。事实上,他是由于未被邀请参与这个项目而感到不快,”Deal总结说,所有相关的项目人员,在首次项目会议开始前,都应该参与进来。
Abbott在一家讨债公司也遇到同样的问题。该公司试图提高其讨债的成功率。Abbott出席了项目的启动会议。“IT部门控制着数据,他们不愿向任何业务智能和数据挖掘项目小组让步,”他说。
该公司花了几十万美元开发模型,最后被管理者宣布进入为期三年的“评估”状态。到那时,这些信息早就没用了,因而这种评估只是杀掉该项目的一种委婉说法。“他们运行其中的预测模型,收集统计数据,但从未用其改变公司的决策,所以完全是在浪费时间。”
“模型开发出来了,但却从未被使用,只因为管理层没有很好地沟通。”Abbott说。“所以,如果你想成功,一定要获得高层的支持,在他们之间达成共识。”
10、未考虑如何部署
好的,你终于建好了可用的预测模型。现在会怎样?许多公司都大谈他们想建立的模型和预期的投资回报,但却不能在企业中成功地部署这些项目。ElderResearch询问如何在工作环境中部署预测模型时,得到的回答往往是:“部署是什么意思?模型不是已经建立,可以用了吗?”。
商业环境中的部署策略,可能会非常简单(把一张电子表格数据列表提供给某人),也可能会非常复杂(从多个数据源导入数据到模型中)。多数企业属于后一种情形。业务流程复杂,数据量很大,不是一个简单的电子表格就能呈现输出的结果。为此,企业不仅要投资购买昂贵的分析软件(花费5万到30万美元),还需要近一步的开发来保证这些工具可以与数据模型进行对接。最后,还可能需要将输出整合到可视化工具或商业智能工具中,让大家能更好地解读分析的结果。因此,成功部署有时比建立模型本身更加重要。
即使这样,部署策略也可能需要根据用户的需求进行调整。例如,美国邮政的调查员办公室曾与ElderResearch合作,开发用于发现合同欺诈的数据模型。
调查员们最初忽视了预测模型的作用。后来,项目小组决定以更引人注目的方式展示信息:他们创建了一张热点地图,在上面显示合同欺诈概率最高的合同。渐渐地,调查人员开始意识到这种方式给他们的帮助。现在已经有1000名调查员使用这一工具。
11、模型的结论过于明显
一家娱乐公司想知道如何挽回高价值的回头客。AbbottAnalytics开发了一个模型表明,有95%机会,这些客户会回来:模型所发现的模式相当明显,多年来持续消费的客户,在中止几个月后,通常不需要任何干预就会返回。
用户的业务部门很快发现,不需要模型来预测如何挽回这些客户,他们反正会挽回他们。对于其它5%,最终是不太可能挽回的。重要的是,如何在这些普遍的规律中找出特例来。咨询公司建议用户关注那些模型预测会返回,但实现却没有的高价值客户,对于这些个体,人为干预非常必要。
但是该客户面临着另一个问题:他们没有特定消费者为何中止消费的反馈,也无法通过模型分析为什么该消费者会离开。“为此他们需要更多的数据,以找出核心原因。”Abbott说。只有这样,只有这样,他们才可以尝试用电子邮件和报价来重新联络消费者。
12、未能在业务范围内清楚定义模型的作用
Abbott曾经为一个邮政应用开发专门的预测模型,分析其读取条形码的准确率,要求是1/500秒内完成计算,以便在每件文档通过时完成读取动作。
雅培本可以提供一个很好的算法,但如果它不能在给定的时间内产生预期的结果,将会毫无用处。预测功能和特定的时间框架需要在模型中加以定义。因此,在不得不在算法上加以取舍。模型必须很简单,因此可以满足时间和预算的要求,这是典型的业务场景。
模型要受到业务的约束,相关的约束条件要在设计规范中清楚列出。不幸的是,这种想法并未在大学中教授给所有的人。很多人只想建立好的模型,却不知道如何将他们用于实际工作中。
结论:失败也是一种选项
如果最终你认为预测分析太难了,那么也不要紧。大家会不断犯错误,不断学习和调整,而这一切是值得的。算法能够以人工无法实现的方式来处理数据,从而帮助我们做出好的决策。虽然成功很难,但是如果你参遵循一些简单的原则,就可以做得更好。
(来源:CIO发展中心)