大数据并不一定意味着好数据。随着越来越多专家对这一结论的肯定,我们应该意识到大数据本身并不能主动带来准确的分析结果。如果数据本身并不完整,缺乏与之匹配的背景甚至已经损坏,那么由此产生的分析结论很可能削弱了企业竞争力或者危及个人生活。
乔布斯(Jobs)≠工作(jobs)
这里笔者将与大家分享一个缺乏背景的数据导致错误结论的典型案例,故事的主人公是来自美国哈佛大学的量化社会科学研究所主任GaryKing教授。在他主持的大数据项目中,研究人员尝试利用Twitter及其它一些社交媒体反馈的内容猜测美国的实际失业率。此次调查的关键词分别为“工作”、“失业”以及“分类”。
利用一种名为“情感分析”的分析技术,研究所收集了大量Twitter信息及其它与三大关键词相关的社交媒体内容,旨在了解关键词数量的增加与减少是否与美国每月失业率存在直接联系。
在对用户意见进行监控的过程中,研究人员突然发现Twitter中与“工作(jobs)”相关的内容开始急剧增加。不过King略带惭愧地告诉我们,他们后来才意识到这一切其实与失业毫无关系。“我们根本没注意到当时史蒂夫·乔布斯(Jobs)刚刚去世。”他表示。
除了乔布斯与世长辞之外,整件事完全可以当成个笑话来讲。这个案例暴露出一种极为可怕的结果,即希望依靠大数据神奇力量制定决策的用户很可能由于失误而陷入危险境地。King指出,“jobs”这个词的双重含义“只是大数据分析事务中颇具代表性的问题之一,而且几乎每个拥有这方面工作经验的朋友都有过类似的经历。”
“通过人为角度制定出的关键词列表在短期工作中能够起到不错的分析效果,但从长远角度看则可能引发灾难性后果,”他表示,“大家可以通过添加例外解决这类问题,但这意味着我们必须将技术人员规模扩大到夸张的程度。”
他同时不无戏谑地指出,任何人都能轻易在Bing搜索引擎的社交页面中输入关键词,但事情不可能如此单纯。“在大数据分析过程中,大家往往会发现一些与预定目标相关或者完全无关的内容。如果我们不及时改变查询方式及关注角度,分析结果将出现各种各样的偏差状况——有时偏差不大、有时则干脆驴唇不对马嘴甚至出现颇具戏剧性的大问题,”他解释道。不过King表示总体来看,大数据分析领域其实不乏产生有价值结论的案例,“因此出现严重问题的可能性并不太高。”
Vantiv公司高级副总裁兼CSOKimJones指出,这并不属于新问题,而是由于人们对大规模数据带来理想结论预期的不断升温而日益严重的老问题。“乔布斯事件就是这样一个经典案例,如果没有对应背景的匹配,数据本身并不能与情报简单划上等号,”他告诉我们。
不能把所有分析推给计算机
King也认同背景信息在大数据分析工作中的关键作用。他也是大数据分析企业CrimsonHexagon公司的联合创始人兼首席科学家,这家公司专门提供在线咨询服务。引用该公司营销执行副总裁WayneSt.Amand的说法,“背景信息正是在线对话的意义与基本结构所在。”
然而当下不考虑背景信息而盲目利用数据驱动决策制定的情况变得层出不穷。《华尔街日报》就曾于今年二月报道称,不少医疗保险企业利用大数据为用户创建个人配置文件。他们努力追踪产品购买记录,并闹出过由于公司批量订购大尺码衣物而制定出强制性减肥计划的可笑新闻。
大家普遍认同选择健康生活的方式与理念,但对隐私的窥探却令人感到不安。用户购买这些衣物的目的很可能是为其他家庭成员准备礼物,由此分析并制定出的结论却让人哭笑不得。彭博社《商业周刊》早在2008年就曾经报道称,某些医疗保险企业根据用户购买处方药的记录为其提供心理健康咨询——这样的做法显然会适得其反。
AdamFrank曾在《美国公共广播电台》的官方博客中撰文指出,在某些情况下,银行会根据贷款人在职业社交网站LinkedIn及社交网络平台Facebook上的联系人名单决定是否为其提供资金。在他们看来,如果大家的“朋友”有过赖账的记录,那么我们自己的信誉也要大打折扣——没错,这就是他们得出的结论。
Frank还援引ACLU(即美国公民自由联盟)高级政策分析师JayStanley的结论,在博文中表示“信用卡企业有时会根据其他身边熟人的行为表现降低某位客户的信贷限额。这种‘行为评分’机制希望通过经济关联特性作出统计并推断一个人的还款习惯,此类做法远远超出客户甚至监管机构所能控制或者了解的范畴。
KimJones还表示,直接获得结论而不再进行进一步相关趋势分析的做法很可能已经给他本人造成影响。“在上世纪八十年代末到九十年代初,有数据显示年纪在20到27岁之间且驾驶入门级豪华轿车的西班牙裔及黑人很可能是毒贩。”
“其实我与上面提到的标准基本吻合——我是非裔美国人、处于20到27岁之间,而且确实开着一辆入门级豪华轿车。但是如果我停下车子接受检查,警察们会发现我穿着军装、衣服上别着中校军衔的标志还点缀有西点军校的校徽。”他无奈地表示。针对这个问题,他认为“仅靠数据本身就拿出分析结论永远不是什么好事。如果在计算方程式中将个人因素剥离出来,数据分析只会导致更高的结论失误率。”
总而言之,大数据只是一种工具而不应该被视为一种解决方案。“它能帮助我们从数以百万计的事物中将分析对象缩减到150个左右,”Jones指出,“但如果把所有工作都交给计算机来处理,则只会给我们带来更多麻烦。”