以“大数据大带宽推动云计算应用与创新”为主题的第五届中国云计算大会今天在国家会议中心召开。为期三天的大会(6月5日-6月7日)中有来自业界众多的云计算从业人员。会上,中国电子学会云计算专家委员会委员、百度公司副总裁范丽发表了以“百度大数据与云计算”为主题的演讲,以下为演讲内容。
各位专家,各位领导,大家早上好,很高兴今天有这个机会跟大家分享一下百度这一年来在云计算和大数据上的一些工作和成绩。同时,我也想借这个机会来阐述一下这几年我在百度负责云计算和大数据的一些感想和观点。
一、回顾百度云计算。
第一,基础设施和架构。百度现在一直是全球前五大互联网之一,用户量也是前五大。看一下这个,我们过去做云计算有个很大的目标,就是尽量降低我们的成本,提高效率,在过去的10个月,去年7月到今年4月,不到10个月的过程中我们每个GB的存储空间成本降低了超过50%,这里面有硬件的进步也有软件的进步,是软硬件一起结合设计的成果。
这一点是今天下午有专题的报告,GPU提升计算能力高达34倍,整机柜服务器大批量上。我们是国内大型数据中心PUE最佳实践,国内大型数据中心PUE第一的最佳成绩是年均PUE1.36,最佳PUE1.18。在这些基础上有了这么好的架构和设施,我们做了非常多的大数据的工作,百度做大数据是天然必须做而且能做得好的工作,因为我们首先有非常多的数据,不管是用户数据、网页数据还是我们互联网上各种各样的数据,百度在这十多年的积累中间都已经存储很多、处理很多,这几年我们更要做到非常智能的分析,能够在这种分析处理计算中给用户带来更多的价值。
第二,移动云应用。百度移动云的思路是依托我们在传统云计算上的一个优势,提供给用户个人云,以个人的需求为中心,让用户拥有我们的计算、存储和数据的能力。一个比较简单的是云端保存永不丢失,不需要担心存储空间、安全和备份。这是比较便捷的一处修改、多端同步,当我们生活中有多种设备。其实我们的移动云还有多种多样的近两年发展给用户的武器,有兴趣的同学可以再看一下。总体来说,百度的一个思路是我们有云能力,我们建设云平台,我们希望让开发者更好的创意,用最少的成本获取用户的流量,获取收益,也希望用户有更多个性化有创意的云服务,我们之所以能做这些是因为百度公司这几年做搜索引擎当中积累我们很多技术和很多想法。
我们个人云服务产品在短短一年间获得好评,使用率和品牌影响力是名列前茅的。有一个数字可以分享大家,开发者注册量到5月初已经突破20万,这都是在我们百度云平台上,希望自己有创意,能够创业,面向用户的一些非常有创业的开发者。
第三,新一代搜索。09年我们提出框计算以后的一个概念,不仅给你带来非常好的信息,同时应用也好,各种各样的信息也好,都是能够便捷,这是09年开始了。最新一代我们做了更深度的数据挖掘,用知识图谱的关系挖掘出更深层次知识的关联,能够在网页的右侧给大家带来一些崭新的的兴趣激发,这是我举的一个例子,就是李德义院士(音),如果你在百度搜李德义(音),左侧是自然信息,李院士的百度百科,包括他最新的希望,包括图片,包括他写的一些着作在百度文库上的存储,那么右侧更多的不是主需求,而是我们想推荐关联性的信息,比如工程院院士有哪些是李院士的同事,另外还有哪些领域李院士涉及比较多、其他人还搜哪些。更有趣的是我们推广链接,是李院士书的广告,我自己感觉是很相关的,所以这是我们综合的整合和深度的挖掘,这是去年下半年做的智能的推荐。
人物是我们做的第一个类别,第二步是整体的百科知识。我自己有孩子,他们非常关心各种各样的博物馆,我举个例子,上海博物馆,在左侧有关于上海博物馆本身这个主体的信息,右侧有几层不同这种信息的展现,第一层是上海博物馆推荐的展品,第二层是上海市区比较热门的展览的展点,第三层是“其他人还搜”,就是有些人到上海可能去博物馆,有可能去新天地,通过这三种不同的推荐希望让用户看到现在想的、今天想的,也看到你明天想的或者下一步可能要做的动作。第三个是医疗,最近我们在医疗上有很多改革,这一块是我们多年的积累,因为百度百科积累用户很多信息,我们做的是进一步整合,把一个症状拓展到其他病人所问的问题,也拓展到这个症状可能的疾病,也拓展到因为你想治这个病有可能需要的医生和医院。
讲了这么多,是百度在云计算和大数据上的一些实践,今天也借这个机会跟大家探讨一下云计算是不是到了厚积薄发的阶段,厚积是在行业努力下积累了非常多的能力,但是有没有薄发可以跟大家探讨一下。
二、云计算的厚积薄发。
我99年在硅谷工作,2010年回国,我个人认为互联网的发展一直到98、99年有了谷歌和百度这样的搜索引擎才真正的爆发。因为没有有搜索引擎之前有很多网上的内容用户看不到,非常困难知道原来互联网有这么多的东西。有了搜索引擎,让人们更快、更便捷、更整合看到这些信息,整体互联网蓬勃发展,因为用户看到了它的价值,商家看到了它的价值。从搜索引擎十多年前开张到今天发展到现在,我们经历了SNS,也经历了移动互联网这个设备的变迁,使得我们用户不仅仅有了一个PC才能接触到互联网,你随时随地,你的PAD也好,手机也好,智能电视也好,随时随地都能够接触到互联网,那么整体的威力更大,那么是不是已经爆发出来了?
其实云计算本身已经打好非常深厚的基础,但是这个引爆点有没有到来我们还是需要做更多的努力。为什么这么说?我举几个例子,在今年年初江浙地区爆发禽流感引起全国很多的恐慌,其实从正面看这个例子比起十年前的SARS政府的反馈是非常正面和迅速的,那么在百度做了些什么?这是今天“禽流感”的一个结果,在左侧整合很多跟禽流感相关的信息,右侧推荐了你预防和最新疫情的发展。同时,雅安地震的当天百度公司全体用户产品的相关人员都汇集在公司,我们整合了很多信息,包括我们的全网寻人,整合了其他互联网的寻人平台,包括我们地图实时救援的路线。但是我个人觉得我们可以做得更多,有哪些呢?比如刚才怀校长讲到了,如果我们的数据分析达到了一定的水平,是不是可以预测流感的趋势?今天我们都是后知,如果一旦百度公司能够非常迅速的把这个信息整合起来给用户看,如果我们有这种能力,能不能做到预测?包括余震的时间,百度也是尽我们的所能在第一时间,但是我感觉从发布我们百度有很多线上到线下的阻碍,这个时间会比较慢。还有是余震路线,在雅安救援的过程中有很多因为不必要的阻碍,比如救援的路线、高速的拥堵,其实这个信息在很多互联网公司都已经有了,但是我可以想象救援的队员他们怀着一腔热血救援的时候可能身边没有及时拿上PC上百度或者上其他互联网,但是如果我们能够及时整合到手机里面,一旦能够意识到你的路线有可能造成下一步的拥堵,我们可以及时的提醒你换一条路或者停下来,给更加危机的救援一线人员让路。这些信息现在都散落在各地,把它串连起来这个工作还需要做。
我们看一下一直在说的医疗,医疗在5月初百度上了新模式,比如你搜“小儿咳嗽”,你的孩子有可能得的是小儿支气管炎也可能是肺炎,如果你想了解更多小儿支气管炎的症状,那么你点击这个看到的是小儿支气管炎的百度百科的词条。同时向你推荐在你这个地区有哪些知名的医院、权威的医生和相关的药品。如果你想点权威的医生,我们进一步说这样的医生有可能帮助到你。这样的过程中不是用户一搜猜到你所有的需求,而是希望给你一些交互的空间,让你告诉我你下一步想要得到的信息。但是我觉得这个只是我们的第一步,医疗是民生领域的刚需,中国看病非常难,我们有很多协和这样的好医院,但是每个人的资源非常少,每个人看病都经历过挂号难、咨询难、找到靠谱的好医生难的这样的经历。那么在这方面我们能做哪些工作?我们百度在这方面已经做了很多积累和研究,下一步会做更多的比如很简单的在网上药品的时候能够线索药品的真伪,这个我们推出了药监局权威的数据,如果你有药品的名字和号码能够查到药品审批的时间和信息。关于用户的情况的一些小毛病,比如孩子身上长瘊子,网上一查,其实会发现如果经常游泳孩子会容易长瘊子,如果有自我治疗的方法不用排队两个小时挤到医院问医生信息。我们如果能够积极的整合社区的信息,家里有长年中风的老人,有哪些基本保健措施、预防措施和护理措施,有一些病友的社区,也是百度公司在多年产品积累上可以提供给大家的。
再看一下这个交通,很多人为了参加这个大会,今天又是北京的雾霾天,肯定需要提前设计好路线,提早到来这个大会。其实在交通中我们已经做了很多,比如说百度的地图有实时的交通拥堵的路线图,但是我想每一个开车的人都知道可能过了半个小时中间有一个交通的管制或者有一个事故,马上这个形势可能绿就变成红,那么当时你已经在路上了,你怎么办?在这一点上你可以想到我们今天有云计算,多个设备信息同步,这些技术都有的,只不过是我们所有的开发者还没有想得更深想得更透,能够把用户的这些需求串连起来。刚才我讲到交通拥堵的实时变化情况,我们每个人基本都有手机,如果你开在一条路线上,你是某一个应用的用户,这个应用完全可以跟百度地图挂钩起来,发现有一个交通管制的信息,发现有一个事故,马上告诉你你可以选择另一条路线,因为前方已经有一个事故发生。我觉得像这些例子其实我们从技术上、从云计算的能力上都是已经准备好了,但是我们从产品理念上过去还是更多的关注了一些可能是企业的效率也好、成本也好,还没有关系到我们的民生民计要走的一个路线,把我们用户在生活中的每一步串连起来。
最后再讲一下我们的教育,这是最新的2013年互联网报告上讲到的在线趋势,这几年美国在线教育发展一直在上升,中国也有缓慢上升的趋势。另外,教育的民主化,它的用户数是蓬勃发展,这是美国的发展趋势。在中国,我觉得在教育这个行业,我们每一个人都是中国教育体制成长起来的,我们孩子也会在这里成长。如果你有孩子,你就会知道入学难、择校难,我们能够做各种各样的选择,有很多信息是缺失的。我举个例子,百度公司有一位非常有名的科学家,最近他的小孩是小升初,他原来在市中心念一个非常好的名牌小学,现在他希望他的小孩既能够有非常严谨的学业,也能够有一个开放的心态,在这个过程中他自己是做搜索引擎的,经历非常多轮的搜索、痛苦的折磨,最后他公司我“我找到所有的信息,但基本是我的太太全职在家搜索一个多月,才把所有的信息汇总起来”,从这个例子可以看出信息整体的不整齐、不透明、不公开,造成我们用户在生活中很多选择和需求时候有很多困难。但这些信息本身完全可以公开,我相信我们的政府和专家是坚信这些公开是可以给用户带来价值的,但是我们还没有做到这一步。我这里就是希望在座很多开发者和同行能够跟百度公司一起多想一想我们用户真正的刚需,他生活中衣、食、住、行所需要的,把我们这么多年积累的智能化的数据分析、智能化的理解、云计算的能力整体的发挥出来。
三、让大数据真正活起来。如果想让我们大数据真正活起来有几条:
第一条,非常欣喜的是在云计算大会这么多年的积累,云计算已经有整合、处理、分析大数据的能力。
第二条但是改变生活首先要改变意识,这个意识不仅仅是成本的问题、效率的问题,还有便捷性、连贯性和整合的问题,我们的信息碎片化都是有的,我们有很多在线教育,我们有很多医疗信息化的工作,包括有一个医疗信息化的专题,我非常高兴,教育也好,医疗也好,每一个人深切关心的东西是我们云计算真正要做到和改变的东西。我刚才讲到很多例子它的瓶颈在于线下到线上,我们有那么多的数据,全国有那么多优秀的医生、优秀的医院、优秀的老师,他们的经历,他们所特长的,他们对教育、医疗的一些观点,这是从线上到线下还没有做到。
第三条,我在百度搜索部门一直强调的就是刚需,视频和动画是我们的娱乐刚需,但是生活中不可回避的是教育、医疗、出行、衣食。第四条,数据的信息化、公开化、实时化是大数据整体要活起来的一个基本。整体大数据活起来了,我们才能真正用我们的技术改变社会、改变生活、改变自己。谢谢大家。