平常所说的“大数据”,其实只是一种想法,而它的形态本身是数据云。人们用它来描述、定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。
举个例子:在网络当中,平均每1秒钟,会有60张照片上传到网络;每1分钟,会有60小时视频上传到视频网站youtube......在“大数据”中,存储在数据库中的结构化数据仅占10%,邮件、视频、微博、帖子、页面点击等大量非结构化数据占据了另外90%。
“大数据”有几个比较明显的特征:数据量大。“大数据”的起始计量单位至少是p(1000个T)、E(100万个T)或Z(10亿个T)。数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是“大数据时代”亟待解决的难题。处理速度快,时效性要求高。这是“大数据”区分于传统数据挖掘最显著的特征。
而最早提出“大数据时代”到来的是全球知名咨询公司的麦肯锡,麦肯锡表示:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
而今,互联网和大数据已经开始深刻影响公司的传统业务。当了解这点之后研发人员开始思考,在光线昏暗的条件下跑步,人们需要什么?毫无疑问,是可见度和安全性。因此,在设计鞋的时候加上了反光材料,在设计衣服时也加上了反光材料。这只是互联网和“大数据”对耐克影响的一个缩影。
很多企业已经意识到,互联网上每天产生的庞大数字在一定意义上就意味着财富,意味着政治。美国华尔街根据民众情绪抛售股票;对冲基金依据购物网站的顾客评论,分析企业产品销售状况;银行根据求职网站的岗位数量,推断就业率;投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;美国疾病控制和预防中心依据网民搜索,分析全球范围内流感等病疫的传播状况;美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好。
大数据时代将为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。而与此同时,也对人类的数据驾驭能力提出了新的挑战,尤其让互联网公司如临大敌,有些美国公司甚至认为“大数据时代”就如同“外星人”和“世界末日”一样,这在某种程度上是虚构的。但不管怎样,海量数据已然摆在面前,是机遇必然伴随挑战,关键在于如何应对。