探索中国CIO人才现状 | 第四季调研报告
大数据可视化:要避免的3种错误
2014-01-12  作者:MaxTian 

   

  【CIO发展中心独家】最近有很多关于数据可视化的讨论,决不亚于有关大数据的讨论。我们知道可视化是理解数据的最好或唯一方式,如果我们无法实现可视化,就无法解读数据。可视化是获得和分享见解的好方法,但许多大数据开展可视化的方式却并不正确。为什么?因为几种原因会导致这一结果,让我们来看看几种最常见的错误。
 
  错误1:展现所有的数据
 
  大多数人并不在乎是否看到了你的工作成应,这与我们在学校里学到的东西大相径庭。他们并不关心你每天要处理多少数据,或者你的Hadoop集群有多大。无论是客户,还是内部用户,他们需要的是具体,针对性的答案,而且越早得到这些答案越好。你提供的结果越接近他们想要的答案,就越能节省他们寻找答案的努力。页面上任何不相关的数据,都会增加寻找信息的难度;不相关的数据(无论多么有效)就是噪音。噪音在仪表板上特别普遍,其中的理念往往是"显示所有状态。"但大部分表现都很正常(和乏味),不值一提。显示这些正常的状态让异常情况有很多机会被隐藏起来。
 
  更好的仪表盘应该显示更有趣或更重要的。优先考虑那些重要的、异常的、或可以改变的方面,同时淡化其它因素。数据的深入钻取很重要,但这不是仪表盘发挥作用的地方。不要改变的因素,最好是放在报告中处理会更好。
 
  错误2:展现错误的数据
 
  这与前一种错误一样危险。如果数据关系是相关的,那么显示信息的子集是可以的。如果你关心销售,你可能还关心每个地区或时期的销售数额。要考虑如何利用这些数据来做决定。
 
  与在同一图表中展现过多信息和未展现全局信息相比,展现几种密切相关的图表,是一种很好的折中方案。几种整洁、清晰的图表通常比单个复杂的数据可视化方案有更好的效果。
 
  错误3:数据的展现方式不正确
 
  即使你绘制的数据是正确的,仍然可能得到错误的结果。奇特的图表类型很少见,因为他们的实际效果并不好。绝大多数的可视化需求,可以通过条形图、曲线图、分布图和饼图来满足。想想数据字段之间的重要关系,并考虑将这些字段放在坐标轴上。
 
  按类别分组,然后按时间、量级或重要性排序。(在没有具体要求时,可以按字母排序)。使用颜色类别,而不是量级分类;你可以使用亮度、饱和度来说明量级。使用标签和其他标记选择性地引起人们的关注,而不会搞乱。
 
  良好的设计:提前考虑和规划
 
  为了避免上述错误,最好的办法是首先专注于你的目标。在考虑视觉效果前,先按照下面的顺序,想想这些问题:
 
  1.我们最关心什么?
 
  2.我们需要这些信息来做出什么样决策?
 
  3.你需要问什么问题?
 
  4.你需要看到什么数据?
 
  5.什么是展示数据中重要关系的最佳关架构?
 
  6.你需要突出什么数据?
 
  当你回答这些问题时,就能使用正确的数据来设计和实现正确的可视化效果。这样就能做出改变。这是一件好事。重复、测试、尝试不同的途径。一种深思熟虑的,面向用户的设计方法将实现有效、高效和有用的数据可视化效果。
 
 
(来源:CIO发展中心)