探索中国CIO人才现状 | 第四季调研报告
专访美国大数据“巫师”Nate Silver:数据驱动业务急需行业标准化
2015-09-11  来源:techtarget

TechTarget最近专访了Nate Silver。 这是位什么大牛?我们说几件事,估计你就清楚了。听说过或读过《信号与噪声》(The Signal and the Noise)吗?这本书的作者就是这位大牛。

看过电影《Moneyball》(点球成金)吗?就是Bratt Pitt主演,讲如何利用大数据分析,预测棒球球员职业生涯的电影?这位大牛实实在在开发过这样一套建模分析系统,叫PECOTA,用来预测MLB棒球运动员的表现和职业前景,后被Baseball Prospectus收购。

2012年美国总统大选时,当时奥巴马和罗姆尼选情接近,大家都无法谁胜谁负之际,有一个网站却根据数据分析挖掘,预测奥巴马将有90.9%机会获得大多数选票。事实上,2008年总统大选,美国50个州的投票结果,这个网站预测对了49个。网站创始人就是这位大牛......

这就是Nate Silver!这位1978年出生的大牛,现被媒体称为大数据时代的“巫师“、美国大数据领域超人等多种美誉。根据维基的定义,Silver是一位美国统计家和作者,分析棒球和大选,目前是FiveThirtyEight的创始人兼总编。

这位大牛近日出席了在波士顿召开的HP大数据会议,TechTarget有幸零距离对他进行专访。

Silver表示,现在很多精力要放在网站的运营方面,所以,就像其他公司的行政层高管一样,需要思考数据分析适合放在公司决策过程的哪个环节,该使用什么样的工具进行数据分析,如何确保网站充分利用了分析的数据等等类似问题。这些事情都很耗费时间和精力,其中的一个原因就是大数据(具体而言就是业务分析)还没有建立如何分析、视觉化和解释数据的行业标准和最佳实践。”在过去几年中,我和很多同行一直讨论这个问题,大家都觉得忧心。“Silver说。

数据驱动业务的绊脚石:偏见

Silver认为,由于缺乏标准化和最佳实践,带有偏差的分析、令人误导的可视化就会趁机抬头。这倒不是大家想故意为之。他觉得,这是定性思维,人们会看到一些关联,而这些关联可能并不存在;或者把因果关系适用到某事件,而该事件仅是关联关系而已。

在一个真实的大数据环境中,偏见带来的问题会更加明显。他认为,分析就是理解不同事件之间的关系。但是,当记录的事件越多,事件之间的关系也就呈指数级增长。要全部理解这些事件也就变得越来越困难,这也就让偏见或假设有可能趁虚而入。如果没有一个单一的关系脱颖而出,尤其是相关的关系,人们就很容易选一两个他们觉得最有道理的关系,并认为他们的决定来自数据,而实际上这未必正确。

Silver说:”数据越多,就越容易形成偏见“。他认为,数据可视化往往无法成功,因为数据太多,以至于无法诠释数据,或清理了过多的数据,造成剥离了正确理解数据的语境。此外,图形设计应该干净和简单,并使用统一的测量尺度和视觉元素。但麻烦的是,不是分析团队的人可能为了让视觉效果更具吸引力,去掉太多支持分析的语境。”千万不要让你们公司的公关部门插手可视化。“Silver说。

人的直觉也可以指导决策

如何解决这些数据驱动业务存在的缺陷?Silver认为,方法之一就是清晰定义数据在决策过程中的角色。公司不需要把这个决策过程100%都交给数据去处理。他建议该决策过程的80%可以由数据来驱动,剩下的交给人来处理。这样可以对分析进行现实核查,可能可以纠正数据模型存在的偏见之处。如果最终决策者发现数据模型的建议与常理强烈相悖,这可能表示模型存在偏见或者数据存在问题。

Silver表示,这是为分析创建最佳实践所进行的部分工作。对于大多数企业而言,用数据驱动的方法帮助决策,相对而言,是个较新的概念。但随着实践增多,他们也将会变得越来越标准化。

Silver认为,我们仍然处于早期阶段,需要不断继续学习最佳实践,继续思考标准化。