本次邀请到联想研究院大数据方向负责人郭炜为大家分享,分享主题是关于DT时代大数据技术。
嘉宾简介:郭炜,现任联想研究院大数据方向负责人,毕业于北京大学,曾任万达电商数据部总经理、曾在中金、IBM、Teradata公司担任大数据方向重要岗位。在智能Wi-Fi, Beacon等O2O智能硬件方案以及O2O大数据采集、处理、挖掘、应用具有丰富的理论和实践经验,多次在CIO论坛、O2O论坛、创业论坛发表相关演讲,在传统行业和互联网行业享有盛誉。
以下是郭总分享原文(有删节)
大家晚上好,我是郭炜。今天想跟大家分享一下在大数据下面的一些我的见解过去遇到的一些情况和经验,那么主要分几部分。
第一是当前大数据现状,我会给大家去分析一下现在的大数据趋势,然后是O2O领域怎么去建立大数据平台,最后分享下我所观察到的大数据的未来的一些趋势。
大数据现状
先从大数据现状分析开始,先给大家看一张图。
其实大数据这个概念现在被大家炒的非常火,好像说到统计都要说是由大数据统计出来的,所有的无论网络金融,还是相关的O2O,还是我们的所有企业都在说自己在做大数据平台。那么什么是大数据呢,其实我觉得现在有好多专家有各式各样的定义,我觉得其实这个大数据不是一个特别新鲜的东西,就像我在这个图里面给大家划分出来的,数据和大数据是产生很多年积累的概念。
马云提到说未来是一个DT时代,不是IT时代。那么他是说将来会在任何方面都会产生数据和大数据来决策、影响我们相关的一些生活,那么其实这个所谓的DT,最早的时候是叫做数据仓库,在大概十五年到二十年前它就已经出现在国外,那么在1998年到两千年左右开始引入到国内。
在那个时候把它叫做ERP和CRM时代,都是一些企业内部的一些系统比如客户关系管理、库存管理、购销存等等,各个模块其实那个时候就积累了相当多的一些数据,那么像银行像电信那么投入非常大的一些资金来去做数据仓库,当时叫做数据仓库,其实它也是把我们现在所谓的大数据的这些详单,也都收录在过去的关系型的数据库里,那么就形成了它的数据仓库。
那么在数据仓库之上,当时也有一些概念叫做数据挖掘。其实也是基于收集到的客户的详单,然后找到这个所有数据之间的相关性。还有包括像客户流失分析、交叉销售,以及当时最著名的一个案例啤酒和尿片案例。讲的是沃尔玛经过相关性分析发现所有的男顾客在买啤酒的时候,经常会买尿片儿,那么这个现象很奇怪。后来经过调研发现这一般都是妻子让自己的爱人去商店买尿布,孩子在家已经没尿片儿了,于是沃尔玛就把尿片放在啤酒旁边,然后这个啤酒销量和整体客流量都有很好的变化。这个故事其实就是发生在那个ERP和CRM时代,当时其实已经有数据分析和数据推荐的味道,只不过发生在纯线下时代,所以我把它叫做ERP和CRM的时代。
在这之后,互联网兴起,包括各大的门户网站,包括像谷歌、雅虎这些全部都发展起来了,那么国内的BAT三家也发展起来了,这个时候的就不仅仅是过去我们所谓的交易和这些银行的流水这些数据了。这个时代,其实是主要是以我们的WEB,网络日志以及搜索引擎而产生的搜索关键词,或者是APP产生的点击流,产生了这样的数据。那么在这个时代,我把它叫做WEB2.0时代,我们这个时代其实是因为过去的时候,它的所有过去的技术全都是在处理关系型,还有这种交易类的数据,在这个时代它开始处理的非结构化的数据,比较著名一些品牌像HADOOP开始兴起,现在基本上很多的人在做的时候都会说,大数据是什么,要建大数据平台必须建HADOOP。
最典型的就是在所有的这些搜索引擎的网站、电商网站,最终它会给个人消费者开始做一些推荐的工作,比如说猜你喜欢或者是做一些定时提醒等等,这些东西其实都是在帮助最终的消费者来做一些新的一些购买决策,或者是你在搜索的时候帮你做下广告的推荐,这个时代其实叫做2.0时代。
那么在最后,现在这个时代我管他叫IOT和O2O时代。它和过去三个时代差别在哪儿呢?大家可以看到在第一个时代所有的这些数据其实都是企业内部的数据,它的产生是由客户产生,数据的消费这些数据的人,一般是企业内部的所谓的决策层,做一些决策支持,做一些数据分析、报表,只是少数人去分享,在第一个ERP时代大家都叫它BI。
在WEB2.0时代,其实是有个人的消费者产生数据,根据我们的点击情况,把这些数据采集,再根据你的推荐引擎重新推荐给消费者去方便购买,这个时代其实是在WEB2.0时代。
在IOT和O2O时代比较有代表性的比如说像现在做了很多的智能Wi-Fi,那么也有现在的炒的比较火的Beacon的技术。那么也包括现在咱们手机上的各个传感器去采集的相关数据,也包括现在像苹果PC上面去采集的相关数据,那么还包括像我们的手环、智能家居,甚至于机器人,包括我们现在线下见到的,这些硬件去采集来的数据,那么它的数据已经不是过去的这些网络日志。而是除了网络日志之外的,比如说我们的线下行为轨迹流。比如说我们视频别人,比如说我们的经济数据等等,这些所有这些相关的数据,那么当这些数据来临的时候,过去其实在WEB2.0的一些技术,又不能完全的去满足现状。
举个例子比如说在WEB2.0的时候可能大家谈的最多的还都是HADOOP,HADOOP其实是做批量分析来去帮你做一个推荐,可能是留数据挖掘模型,在WEB2.0时代已经不能满足需求了。
其实是因为现在O2O的时代,我们需要的是实时的大数据,我们需要的是实时的能给客户做出根据过去的行为和他现在所在的位置,来去给他做相关的一个推荐或者是一个推送,或者是指导这样一个工作,所以在这个时代有很多新的大数据的技术产生。那么结合新的智能硬件,会产生一个完全和WEB2.0和SAM不同的时代,那么这个时代其实就是O2O的大数据时代。
所以我整体分析来看呢,不同的时代我们从这个消费者的距离来看,原来最开始的这个ERP时代到WEB2.0到O2O这个时代。距离消费者的数据是由远到近的,从数据的影响力来讲,在过去只是给终端的领导决策层,现在时时融入到生活当中。会发现数据对整个业务的影响比例由弱到强,随着技术的发展会给最终用户一个全新完全不同的体验。
我给大家分享两个我的个人画像,这个画像其实是在过去在某商业地产的时候给给我自己画出来的那么其中一个画线了,左侧的蓝色的那个画像,其实是我自己一个人的一个线下的行为轨迹流。
其实它是通过我自己在广场里面,在每一个这个门店的行走的轨迹来去捕捉我自己在线下的行为的情况。可以看到说我是经常会去九毛九去吃饭,然后我在那边会经常看这个影城的一些电影,我会经常去KTV。能看到这里面所有的这些这个小的字其实都是我过去在我线下的轨迹来给我个人画出一个画像。那么,这就是我刚才提到说在ITO和O2O时代每一个人其实优过去的在WEB2.0的这种点击流变成了我们现在线下的这种轨迹流了。
我们能把每一个人在这个广场里面,这个所有的消费的记录,全部都找到,每条明细全部都能够无论你是用是哪个商家的终端,那么通过的只能智能POSS我们全部等都能把你的消费消费的明细,全部是是拿到云端。
拿到了这些数据和我们干什么呢,其实我在那个时候做了一个叫做场景引擎的东西。那就是一个类似一个虚拟的人陪你一起在逛这个万达广场,站在你进入万达广场的那个时候,我会请一个实时的进程去跟踪你的状态。你买的什么东西,走到哪里,然后给你推荐你想要的东西!比如我刚从一个电影从院线的电影在刚刚走出来,这个虚拟进程会监控到会看到你从电影院里走出来我会知道你是星巴克的一个爱好者,那么我其实在这个时候就可以给你这两个优惠券让你去到星巴克去。
这样其实更能够根据你现在此时此刻此地,你现在的状态和你过去的行为的一个偏好给你推一个优惠这样的话就能够让促成一笔新的交易,那这些东西其实是在新的IOT和O2O时代,那么其实是和WEB2.0时代是完全不同的。
那在这里了我再给大家分享一个现在新的时代下,我们和客户为中心的这样一个整体的一个大数据的一个闭环,它会是什么样的呢?
那么大家知道,刚才我提到在新的现在的IOT和O2O时代的来临以后其实它的各种技术已经发展到一个和过去的WEB2.0时代的大数据技术已经完全有些不同了,那么它会体现在几方面,一看的是刚才提到的智能硬件,那么第二个大家知道最近很多人都听过深度学习这个概念。那么其实随着深度学习和自然语言算法的更新,那么实现了一件什么事情呢,我们现在的电脑,它可以理解你说的一些话。所以当这件事情发生的时候我们可以发现说,在整个目前的和用户交互当中所产生的无论是线上我们用户的对话,还是线下用户打的客户热线的内容,其实我们都可以完全能够理解他。
这样的话其实在整个这个闭环里面大家可以看到从客户对这个品牌的感知到他线下产品的选择购买到使用到服务到创新,这一系列的这个过程其实在大数据的帮助下他都发生一些变化,那么分别大概跟大家讲讲。
比如说这个品牌感知,刚才我提到说这个自然语言和大数据能够直接和他一起,你会发现过去的所有的这些用户到底说了些什么?用户在论坛上关注什么?过去其实是很难知道。现在其实你对你这个品牌,用户怎么去交互,她在网络上的评论论坛怎么说,你很快的就能够通过很容易的一种方式能跟你展现出来,那么在线下再做产品选择刚才我提到Beacon、 Wi-Fi技术,视频技术,其实完全可以能够知道用户在线上的这些产品,他究竟是怎么样去选择了,然后你完全能知道和竞争对手究竟是什么样的区别。
在用户购买的时候我们也能够做到比较好的用户购买的画像,包括他的购买线上线下的购买的路径。其实一切都可以完全在我们当前的这个大数据的覆盖了内容里面,我们可以做相关的这个分析也可以给用户做相关的推荐等等。
整个用户怎么去使用你的这个产品,无论你是智能家具也好你是手环也好好。而在过去的时候可能还没有这些东西大家都知道只是在互联网上的网络日志,现在通过新的这个智能设备和智能控制芯片的加入,他怎么去使用你的这些芯片怎么要去使用电脑,怎样去使用空调,厂家或者商家都可能拿到。
基于这些我们会直接能够看到说,我们用户的服务当中会出现了哪些问题,他怎么样去就跟你交互,哪些地方需要提高。也可以去做很多的这个业务的创新,比如说我们做一些用户的分析,也许我们还可以做一些其他的这个数据变现,这些全都是根据现在整体上面以用户为中心来做,所以我经常提一句话,我说DT会让这个商业回归本源,那本源是什么,其实这就是过去和这个用户和商家做买卖的时候面对面的这样的过程。现在能够让企业,无论多大,无论卖什么东西,通过DT的技术又可以重回到那个直接面向你最终用户的这样一个形态。
大数据平台建立方案
前面的是跟大家聊了一下在新的O2O和IOT这个环境下我们大数据的一些新的技术和一些新的发展,那么下面的我跟大家聊聊这个创业企业的一些大数据里方案的一些讨论。
其实这个问题是由过去我的一些朋友经常在问我说,都是O2O和一些创业企业。那么他在融资以后就会想说我们要建一个大数据平台,经常问我技术方案是怎样的?
其实我的观点是这样,所有的大数据和这个技术其实都是为你的业务服务的。所以总体上不要为了大数据而大数据,那么我大概有个简单的给做它做了一个区分。我把它分为按照PV来算,那么是一个是PV少于五十万的时候,PV这个少于一千万的时候,和PV大于五千万的时候,可以大致这么区分。
那么我一般在给大家介绍首其实PV五十万以下的这些企业,对他们来讲我觉得其实他不太需要大数据平台。那么他真的如果需要去做这个无论APP或者是网页或者是刚才我提到的这些数据分析的时候,其实完全可以用传统的数据库的形式加上传统ETL的模式,加上一些开源的LOG的分析工具,完全可以满足他现有的一些分析需求。那么整体的解决方案加上固雇佣相关的人,那一年也不会超过五十万。
而如果在我们的PV处于五十万到一千万的时候,这个时候要考虑些建立一些大数据平台。但是在现在这个环境下的我的建议是,如果可以的话,在这个时代你的企业还不是特别稳定的时候,你可以考虑一些云服务的方式,来建设大数据平台来满足你的业务的需要。因为在这个时候其实你的大数据积累和最终的这个需求还不是那么的明确,你的变化还是比较大,那你这时候你如果去雇佣相关的大数据人才和相关建立相关的硬件,你的投入可能会非常高。在这个时候,你还是会尽量考虑节约自己的资源,如果真的要建HADOOP这样的平台,也不要建超过十个节点的平台,一般十个节点的平台就足够,但是需要几个JAVA的工程师帮助。
但是如果当你的PV到一千万以上,这个时候你就会需要去做一个决策,的确是需要建立你自己的这个平台了,你的相关的推荐服务也需要。现在目前在这个新的这个时代下,在这个最新的这个领域里,我还是推荐除了HADOOP之外我会推荐SPARK这个实时数据计算的平台,它在覆盖目前你的企业里面IOT和O2O的相关的一些服务,实时运算能你满足你至少在未来的一段时间的需求,它的数据量的增长,随着你的机器数量增长,你的机器其实是可以有评估基础,然后你再去建相关的平台。
当然如果这个时候你的日pv已经过亿了,这个时候其实你是需要一个不同的一个领域,那么你需要的东西,是要做一些自主优化的数据存储和你的一个云数据的处理一个平台和中心。而且你要去定制你自己的处理平台和你的数据分析平台在这个时候一般来讲,比较高级的这些技术人员是你必须要准备,因为你会面临着直接修改HADOOP和这种SPARK源码的需求,否则你没办法支持你的业务发展。
大数据发展的几个趋势
那么接下来我也大概给大家分享一下我我所看到的未来的这个大数据发展几个趋势。
一个趋势是我认为未来的大数据会迅速的形成大数据联盟。这个可能在以前也跟一些分享的时候跟大家讲过,因为在过去的时候大家总是在说这个企业自己内部有这个信息孤岛,而不能把数据打通,现在其实在经过这样的这个技术的一些革新后企业内部基本上都是大一统的。但是,企业自己变成了这个孤岛,所以企业在大数据的环境下那如果要他以用户为中心,那么它一定是要形成一些大数据联盟的,这种联盟可以通过这种数据复合购买,也可以通过其他并购,也可以通过数据的交换。所以能看到最近很多的并购的案例启示背后,都是有大数据的交换来作为他其中的一个几个重要的并购意向。
第二个我看到的趋势是说叫大数据的云化。因为在过去的时候其实还有很多企业很难接受自己的数据是在第三方的地方。但是在现在这个环境随着物联网的发展,我们的数据过去都是在企业内部。而现在互联网,我刚才提到O2O和IOT这些数据其实都是在互联网上的。它的数据采集器是给云的这个数据中心提供了一个机会,就是我们可以在云端提供相关的大数据服务。同时现在的加密技术已经有相关的硬件能够支持实时的数据加密,所以这些数据处理上的时间也不会有太多的这些代价,能够让加密解密能够在大数据环境下来进行生存。
第三是说比如说我们现在的很多的爬虫技术,刚才我提到说通过互联网的声音来了解我的客户。那这些数据其实都是在互联网上面的,也不需要说每个企业自己都要爬整个互联网。所以提供云服务,其实也是所有的企业众望所归。
第四点的就是说我们现在其实这对于这个大数据平台来讲,因为它是开源平台的,其实到一定程度以后这些开源平台的一些难点和维护工作量还是挺大。而且现在大数据炒的比较火,相关的高级技术人员他的成本也比较高,所以不是每一个企业都有钱能够去雇这样一个人来去做相关的大数据背后的开发,所以也给大数据云平台提供了机会。
那么今天的我的分享就到这里,谢谢大家,也希望了大数据的技术能帮助各位的企业技术能上更大的一个台阶。