探索中国CIO人才现状 | 第四季调研报告
从机器学习到商业价值到底有多难?
2015-03-19  来源:techtarget

近期机器学习技术和产品大热,但是机器学习技术却并非新鲜事物。日新月异的是平行数据处理平台应用于大数据的数量。

最近在美国加利福尼亚州圣何塞举行的Strata+Hadoop世界会议上,数据专家表示,可预测机器学习运算法则和模式的复杂性,以及该种模式的总数目,会限制大企业机器学习的使用。他们还对处理这种限制的工具进行了讨论。

“机器学习技术规模的力量随着数据变化,但是锻炼时间会出现指数式增长。”Ryan Michaluk说道,他是美国Allstate保险公司的数据科学家。

对于模型的复杂化和需要处理的数字化数据团的不断增长,Michaluk又说,不断重复的机器学习已经成为了他负责组织的工作中的一个瓶颈。因此,模型智能应用于样本,而不能应用于整个或近似整个数据集,而这影响了部分准确性和可预测性。

他认为使用Hadoop的数据共用,不失为一个解决模型和数据的规模问题的好措施,但是机器学习问题还是很难解决。“某些运算法则轻度平行——有些根本不平行。”他表示。

数据规模和模型复杂性是限制因素

Michaluk说,他的小组已经开始使用Hadoop和美国Skytree公司的机器学习软件,来为平行模型发展提速。

他和自己的同事们目前可以将已经存在的学习模型应用到更大规模的数据集中,可以得出更准确的预测。这些模型能够优化定价、预防诈骗、保险、市场和网页设计等方面的决策制定。

Michaluk表示,保险业长期以来的基础工作——保险精算表格,使其成为了使用数据及其学习运算法则预测结果的热点。

但是成功创造模型所需要的数据规模,模型复杂性和重复次数限制了处理过程。他指出新兴的发数据处理平台能够简化并且扩大机器学习的应用。

“以前试都不敢试的事情,现在就能做到。对于我来说,最大的好处就是不用再盯着电脑做重复,而可以把更多的时间应用到解决其他问题上来。”他说。

模型的时间框架

对于美国Cisco系统公司负责顾客智能单元的高级分析经理Lou Carvalheira来说,机器学习已经为分析学打下了多年基础。我们对这一观点太过熟悉,“几乎不再提了”,他说道。

在识别潜在客户的征程中,新的问题,他继续道,是“我们正在寻找扩展流程的方法。机器学习随着处理数据的增加更加强大了。现在可以动用大规模计算能力,而不只是一台电脑。”

但是Cisco有许多商业伙伴、代理经销商和市场主动权支持。而对于Carvalheira来说,运行成千上万学习模型的时间成为了巨大的挑战。这些分析需要付诸实际行动,因而有这种时间敏感性。因此,他说,迅速辨别卖家特征以便各小组行动是非常重要的。但是在销售周期中还需要时间将分析信息传达给市场和销售人员。他们反过来才能创造吸引消费者的产品组合。

“可以通过创建概率措施分析谁会购买和花费总数。这种组合非常有用。我们的问题在于在留出充足的时间实现用户定制的同时,创建足够多的预测模型”。Carvalheira说道。

为了弥补这个缺口,Carvalheira和他的Cisco同事们与美国H2O(正式名为Oxdata)公司合作,该公司开发了一个广泛应用的为分析打造的机器学习平台。

实际上,Carvalheira说道,H2O开发了新版本的MapReduce,这一处理构架能够分解并分配计算工作,是最初Hadoop公司的重要部分。“但它没有为数据技术实行优化,”他这样描述H2O,“如果想想‘客户关系管理’这一运动,就能意识到我们做这种辨别价值的工作已经很久了——预测哪个公司接下去会购买什么。现在,我们拥有的能实现这种功能的工具正在改变着”。

如何获得商业价值

虽然Apache Spark数据处理工具在许多工作中都有用处,但是这一工具最常见的用途就是在新时代及其学习应用中——它是许多网站推荐的一流范本式工具。

451集团的企业分析师Kishna Roy将H2O和Skytree置于机器学习的初创公司中,包括Ayasdi, BigML, Nutonian及其他。这些公司反过来通过IBM,微软和SAS等大公司既定的高级分析服务竞争。

但是H2O和Skytree在Apache Spark作为机器学习平台崛起之前就已经存在了。这两个公司已经宣布支持Spark,并且都表示Spark的运行于分散群集上的工具基本上是他们自身工作的补充。