探索中国CIO人才现状 | 第四季调研报告
大数据可以预测 可靠性尚不确定
2014-02-13  作者:企业网 

  


  人类生活需要预测,但可靠性却实在不敢让人恭维,鲜有正确。这有人为因素,也有技术原因。


  比如“非样本错误”。假设有一位司机,驾龄30年,出行2万次,只发生过2次轻微的剐蹭事故。中秋节跟家人一起喝了很多酒,那么这位司机能否因为此前驾驶记录良好,就认为这次也不会出事故?显然这是错误的想法。因为2万次的出行记录都是无酒驾记录,这次喝多了,此前的记录已无任何统计学意义。或许觉得这样的低级错误预测专家能够避免才对,但其实不然。由美国引起的2008年全球金融危机,人类也就只有一两位预测到,而其他所有的美国评级机构、白宫智囊团、经济学家无一能预测出。究其原因,就是犯了这种“非样本”的预测错误。当情况有变,一味根据过去的记录做出预测,就只能得到错误的答案。


  很多人喜欢投资股市。身处牛市,投资者再外行恐怕也能多少赚点钱,但从牛市进入熊市,证券公司一般都是集体犯错。这更多的是人为因素。证券分析师出现错误判断很正常,但犯错一定要避免只有自己犯错,一起犯错就等于自己没犯错。比如有人分析出股市有一定概率要崩盘,最佳策略却是继续持有。这样股市崩盘了,由于绝大多数同行都不确定何时要崩盘,也都选择持有战略,集体犯错,并不会显出自己水平低。但如果贸然卖掉股票,短期股价却没有跌甚至涨了,就只能表明自己水平不够。


  震惊全球的"9·11"恐怖袭击事件让人感觉很突然,其实美国情报机构差点识破这一重大阴谋。2001年8月16日,穆萨维,一名宗教极端主义者被逮捕了。他只进行了飞行培训50个小时,却要求参加波音747客机的模拟训练。这很诡异,因此被人举报。事后看这个事情,信号很清晰,有恐怖分子要用飞机炸大楼。在当时,这个信号却被掩盖在几十万条诸如此类的众多噪声中,并不突出,或许他只是个飞行爱好者呢。有信号,更有噪声,使得预测非常困难。


  以上种种因素导致人类预测不甚准确;但还是有办法使得预测更加接近真相,那就是借助贝叶斯定理。这条概率学定理已产生二百多年,是用条件概率推理问题,揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策。比如一位女性的乳房X光片显示阳性,那么她患乳腺癌的概率会是多少?已有的统计数据显示,如果一位女性未患乳腺癌,X光片呈阳性的概率为10%;如果确实患有乳腺癌,X光片阳性概率为75%;因此X光片呈阳性,一般人会认为事情很严重。但如果用贝叶斯定理来分析,她患乳腺癌的概率只有10%,因为40多岁的女性,患乳腺癌概率很低,只有1.4%,也就是说先验概率很低。


  大数据时代,虽然信息量爆增,但信号与噪声并存,要做出正确的预测并不比以前容易,甚至更难。《信号与噪声》一书告诉我们,如果以贝叶斯定理为基础,努力了解事情的因果关系,避免一些不该犯的人为或技术错误,预测准确率都会提高很多。