探索中国CIO人才现状 | 第四季调研报告
低成本的高级数据分析项目
2016-03-11  来源:techtarget

深度的数据分析项目通常花费不菲。不过,如果善于创新,CIO们能够以较小成本顺利完成项目。对此,Niel Nickolaisen进行了说明。

目前,IT领袖及其团队正面临巨大的机遇,改变企业对自身的价值定位。IT团队有着现成的资源来实现巨大的业务价值,而成本却可以非常低。对,没听错,非常低的成本。

在进入正题之前,首先声明,我要谈的东西可能与直观感觉不符,甚至违返企业传统文化。许多年来,我们都被反复地告知,如果想要交付高价值服务,就不得不付出高昂成本。对,高价值服务背后往往意味着较高的成本,但这并非金科玉律。下面,我们进入正题。

以较小成本实现高价值服务的场景之一,就是高级数据分析项目。

我之所以能做出这个结论,是因为我有过类似经历(成本确实很低)。

我曾经是某大学的CIO。当时,该大学的管理团队有一个最为主要的工作目标,即提升毕业率。不管在什么场合,团队都会就此展开讨论。在某次会议上,我曾经这么表态过:“如果能确保我认识所有的学生,我能保证毕业率达到100%的水平。”当时,所有与会者都很无语,转而讨论课程设置、学生辅导和教学模式等方面的话题。

会后,我继续就毕业率的问题进行了思考。我们有一个录取模型,由教育领域的专家开发,用于决定我们接收学生的标准。其中,有三个因素是最重要的:英语、写作和数据能力的测试分数。所有报考的学生都必须进行这三门考试,而我们择优录取。

为此,我开始怀疑我们的数据是否真正支撑了这种录取模型。我们已经有大量与报名学生、正式入学的学生以及最终毕业的学生相关的数据。如果对这些数据进行分析,进行形成对录取模型的优化,将是极具吸引力的工作。但是,该如何启动项目呢?我的团队中没有真正的数据科学家,也没有支撑这项高级数据分析工作的工具和环境。

不过,最终结果证明,其实我并不真正需要这些人力物力。至少,在开始阶段不需要。我的做法是,在一个数据挑战网站把问题和数据(进行了脱敏处理,去掉了学生们的个人识别信息)公布出去,让全世界的数据科学家、分析师和统计学家来为我构建新的录取模型。

整个工作最终花费了两个礼拜的时间,得到了一个超出我预期的更好的模型(以现有数据集来看)。我选定了得到最佳模型的优胜者,并发布了奖励3500美元(不是3万5千美元,也不是35万美元,更不是350万美元)。如果这个模型最终被证明为失败,我的损失就是3500美元而已,就我当时所掌控的预算来说,这点钱不是问题。

那么,这个新模型的实际价值如何呢?新模型揭示了现有人为定制模型的问题所在。根据数据分析的结果,我们之前认为的最重要的因素,其实在重要性上仅排名第六而已,而之前第二重要的因素实际应该在第九位。我们进一步了解到,其实很多待录取的学生没有必要进行英文、写作和数据能力测试——如果这些学生在真正重要的指标上合格了,他们根本没必要进行测试。

就这样,仅仅花了3500美元,我们就改变了学校运营的模式,并进入了以数据推动决策的阶段。我们更新了学校的宣传和录取策略(现在,我们已经知道哪些学生能够顺利毕业,就没有必要在其他人身上多费力气了)。基于促成学生成功的真正因素,我们开始在相关领域开始发力。比如,之前缺少科学、技术、工程或数据方面作业的学生不予录取。这也意味着,在这些方面较弱的学生需要我们的特别关注和协助,以此提升其成功毕业的机率。

在这个项目之后,我们启动了一个有关学生辅导模型的数据分析项目。该项目意在识别出那些面临困境的学生,而我们则可以根据分析结果将更多的资源投入到这些学生身上,以此帮助其获得学业上的成功。

这一切成绩的背后,起到主导作用的就是IT团队。

数据分析项目:如何启动

如果你对此感兴趣,下面就介绍该如何启动一个数据分析项目。首先,定位一些长期困扰企业的、较为含混不清的问题,比如用户流失、需求预测、精准营销等等。然后,审视下手头现有的、与这些问题相关的数据。

  • 是否拥有所需的数据?
  • 这些数据的存在形式?
  • 还缺少哪些数据,以及该如何解决?

之后的事情,就是找到模型开发团队。比如,数据竞赛网站、寻找学生项目的本地大学、具备相应能力的本地大数据/数据科学家用户组。

有件事需要特别注意:在大学里推动高级数据分析项目时,我们从不在任何大数据基础架构或环境上进行过多的投入。比如,对于上面提到的识别处于困境的学生的模型,由于只需要每两周运行一次,我们是通过云租用的模式获取计算资源的。每个月,我们支付3000美元来让模型跑一次,对覆盖约5万学生的2000个数据元素进行计算。退一万步说,即便模型所产生的价值很低,这种成本也是极为低廉的。就我们的这个模型来说,这简直太划算了 – 把学生退学率降低了10%,节省了数百万美元的成本。这一切,你也可以做到。