数据分析厂商Emcien的CEO和联合创始人Radhika Subramanian认为,大数据分析的应用场景似乎和数据本身一样没有穷尽,然而寻找适当的方法来呈现数据分析结果仍具挑战。大多数用户并没有时间来浏览海量数据。能够从静态数据中预测大数据分析用例并提供可供消费的数据流,其重要性日益增长。为此,我们对Radhika Subramanian进行了专访,一起探讨了大数据分析与数据科学的相关话题。
您在BigData Tech Con上谈到了一个新兴的职位,也就是您所说的“数据大厨data chef”。这个概念该如何理解?他们要如何才能融入企业开发团队呢?
Radhika Subramanian:企业一直在询问大数据到底是什么以及如何才能利用它。数据大厨提出大数据分析要使用“食材”和“食谱”。这让我们避开了生涩的原材料而直接带入了可以很容易理解的最终结果——这便是数据大厨的价值所在。数据科学家正在构建一套工具集并且这些工具会变得标准化。我们需要具有专业技能的人,他们懂得特定类型数据意味着什么,以及如何使用这些工具。这些人将会创造出可交付的成果。他们站在终端用户知识和数据科学的十字路口。他们并不需要了解如何制造新的工具,他们只需要使用已有工具来让数据变成可消费品。
人们上下求索通过大数据来努力洞悉业务。而一大堆的数字却让人望而却步。我们需要一种可消费的方法来让结果变得有意义。我们需要知道那些数字究竟意味着什么。我们需要知道如何基于那些数字来做出更好的决策。而且这些都是非常依赖上下文环境的。因此这些工具并不能完全靠它们自己来做到这一切。那些知道如何使用这些工具的人正是我们所需要的,也就是我所说的“数据大厨”。
那么数据大厨应该熟悉什么样的工具、技术和方案呢?
Radhika Subramanian:重要的工具非常多,最基本的当然是存储。这就像你的储藏室,储备着原始食材——数据。一个厨师要让食材保持新鲜,而一个数据大厨则需要让原始数据保持正确。
在这之后,厨师有着一堆设备和餐具来制备和烹饪食材。而数据大厨则拥有数据分析工具。这些是最为重要的部分,这也是大部分工作得以完成的环节所在。
接着食物必须装盘。我们并不想让厨师将食物以任何陈旧老套的方式加以呈现,它应该有着不错的卖相。这也是我们对数据大厨可视化层面的需求。要么将图表和图形在仪表盘中结合起来以供直接消费,要么将数据打包并将其正确格式化以供给某些下游引擎。
与图形分析相伴的机器学习是另一个重要的组成部分。这些工具是用来建立数据间连接的。关于了解原始数据间建立什么样的联系以及如何建立联系,还有一些其他的原始数据工具,而且如果你了解整个堆栈,你就可以构建一个可消费的终端产品。
能不能给我们举个具体例子?
Radhika Subramanian:Amazon的推荐引擎就是非常好的例子。它是作用在销售数据上的,并且会基于那些购买历史和当前用户相似的用户来进行推荐。但是它并不直接将数据呈现给客户。它将其进行存储并处理,接着当客户与网站进行交互的时候,网站就会根据用户的购买历史并参考推荐数据在适当的时机将精美的广告推送给用户。
类似的事情同样出现在医院物联网。所有的医疗设备都接入了互联网。系统收集并分析大量数据,但是它并没有将其推送到某个集中仪表盘。相反的是,当某个特定的灯泡开始闪烁,系统会向维护部门发出警报。而维护部门并不在乎100枚灯泡中的99枚是否工作正常。他们只想知道哪些才是需要引起关注的。
这两个例子就是数据的用例或是一个方案,是数据到达终端用户所采用的路径,它是非常重要的部分。
我们要如何才能从定制化的解决方案转换为兼具健壮性和可复用性的解决方案?
Radhika Subramanian:这个问题很好。我们越来越抵触到处都是可定制的法拉利汽车。我们想要的是每五分钟就能生产出一辆汽车的福特制造工厂。我们没有足够的数据专家来为每家企业量身打造工具。但是我们并不需要这样。数据专家可以设计出通用工具。
在厨房里,我们并没有太多不同型号的器具。但是我们有着成千上万大厨可以用那些器具创造出丰富多彩的东西。就像你并不需要了解要如何制造一台电脑并用其做有价值的工作,大数据也是同样的道理
每家企业都有大量数据,这样也就有了大量所谓的食材。如果他们拥有大量厨师,那么他们就可以发现大量大数据分析用例。
企业已经有了ERP,CRM等等系统,而且所有这些系统都在不断反馈着数据。如今,有必要让人们对数据有一个足够的认识,并且在他们各自的领域找出用例来对数据进行分析。而管理人员将通过他们需要的关键数据来做出决策。他们并不需要对所有客户都细致入微,面面俱到。相反,他们只需要关注那些最为关键的和那些基于特定商业原因需要关注的客户。我们正在朝着数据驱动型企业的方向坚定前行。