探索中国CIO人才现状 | 第四季调研报告
大道至简:让大数据可视化工具更高效
2015-10-28  来源:techtarget

随着越来越多的企业开始部署大数据系统,希望能够充分利用快速增长的数据资源池,数据可视化项目的业务价值与日俱增。以前,数据可视化与自服务的商务智能和数据发现应用程序的关系更紧密,业务用户使用这些应用程序创建基本的收入、利润和其他KPI(关键绩效指标)图表。但现在,越来越多的数据可视化工具被部署到大数据分析环境中,用于融合来自内部和外部的多种数据源,形成可操作的信息。

IT、商务智能和分析团队在大数据可视化项目上面临的最大的挑战是如何把所有需要处理的数据过滤成易于掌握的形式,使这种形式能够对决策流程产生积极的影响。我们容易想到的方法是用数据可视化软件对所有种类的数据进行粗选,再创建精细的表格和图形。但美国线上租赁公司Avant的商务智能负责人Charles Whittaker等数据分析经理表示,可以采用更易量化和更系统的方法,这样能够得到更好的结果。

Whittaker表示,他竭力不给他的团队增加更多的工作,创建太多的数据可视化,因为他认为这有时会让团队无法集中精力实现分析应用的真正目标,比如提升业务流程和更好地辅助业务决策。他以贷款数目报表这样的事情为例,说道:“我强调要把没有实际意义的东西简单化,不需要为它们做那些绚丽的可视化。”

数据可视化也要适可而止

另外,Avant公司确实搭建了可视化,但Whittaker一直在宣传简化它的好处。他和他的团队使用Looker Data Sciences公司的BI工具来分析客户数据,帮助公司更精准地为个体浏览者和细分的客户群体制定金融产品的价格。他们还使用Looker,有时辅之以D3开源可视化库,将递交给管理团队的公司绩效报表数据可视化。

Whittaker表示:“大多数能够带来长期驱动力的商业决策,都能从数据透视表或者简单表格中提取出来,我可以采用多种方式处理绩效数据,但我真正想要知道的是怎样依据(顾客)细分更好的进行定价。

即使是像部署和运行预测模型来评价新客户的信用值这样的重度数据科学工作,他也认为不需要创建复杂的大数据可视化来表现分析结果。Whittaker表示,如果模型工作的目的很简单,就是要理解某些客户的不同数据要素之间的联系,那么再创建可视化就是对时间和精力的浪费。

美国医疗管理软件供应商ZirMed的首席数据科学家Paul Bradley也表达了相似的看法:使用企业发送给客户报表的医院官员太多了,可视化在这里并不适用。ZirMed公司提供的SaaS云应用程序帮助医疗行业供应商处理医疗保险索赔,在索赔流程到达保险公司之前,供应商会使用预测模型对索赔进行分析,来检查每项治疗的计费编码是否有缺失,治疗项目则与单子上的医疗流程相关。

ZirMed为客户提供可视化报表,展示经常遗漏的计费编码和其他项。Bradley表示公司的分析师需要记住的是读报表的医院管理者不会花时间、也没有兴趣研究复杂的图形和表格。“我们花了很多时间处理大数据集中的复杂关系,但我们团队最终的目标是将复杂的关系提炼成人们工作中需要的最简单的结果。”

大数据可视化的幕后故事

在Bradley自己的团队中,数据可视化的部署应用采用了不同的方式。ZirMed的数据科学家需要处理来自医疗组织、美国人口普查局和医疗保险和医疗帮助中心多个方面庞杂的数据库数据,在成千上万的变量中寻找数据关联,了解医疗行业供应商希望合并的医疗流程,以及容易忘记向患者收费的流程。之后,他们使用这些关联来搭建和更新检查索赔的预测模型。

Bradley认为,面对如此庞杂的数据,要找到头绪的唯一办法就是可视化。在这种情况下,建立更复杂的数据可视化就显得更为合理。他的团队成员以前经常和复杂数据打交道,所以做细致的可视化并不难。有些可视化工作通过Excel就可以完成,但要实现更复杂的可视化就要使用tableau的BI软件,数据科学家可以使用它更深入地了解可用的信息。Bradley表示:“我的团队想要从数据中获得样本和趋势,我们想要了解所有能够体现医生护理下的病人状况的数据元素。”

在Hadoop和其他大数据技术快速发展的推动下,分析工具和技术快速发展。但预测模型或数据挖掘算法本身并不能改变业务流程。要产生实实在在的影响力,大数据分析应用程序的分析结果需要在组织内部与其他部门实现对话,这对于发挥大数据可视化工具的力量来讲至关重要。

可以说,大数据分析技术并不复杂。在提到亚马逊等网站的产品推荐引擎等产品时,Bradley表示:“我和每天跟预测模型技术打交道的人聊过,但他们甚至不知道这些技术的存在,因为它们是用免打扰的方式内嵌到里面的。”他另外还强调,分析师在将大数据可视化时,虽然信息来自于复杂的分析,但仍要找到一种清爽的方式来表现这些信息。