大数据存多久?
维克托·迈尔·舍恩伯格:我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度,大量信息可以被廉价地捕捉和记录。数据收集往往是被动的,人们无须投入太多精力,甚至不需要认识这些数据。而且,由于存储成本的大幅下降,保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可能性比以往任何时候都大。在过去50年中,数字存储成本大约每两年削减一半,而存储密度则增加了5000万倍。大部分数据的直接价值对收集者而言是显而易见的。数据的基本用途为信息的收集和处理提供了依据。
随着时间的推移,大多数数据都会失去一部分基本用途。在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。然而,并非所有的数据都会贬值。有些公司提倡尽可能长时间地保存数据,即使监管部门或公众要求它们短时间内删除或隐匿这些信息。这就解释了为什么一直以来,谷歌都拒绝将互联网协议地址从旧的搜索查询中完全删除。谷歌希望得到每年的同比数据,如假日购物搜索等。
目前似乎没有法规要求在一定的时限后销毁数据。如银行的个人财务信息等内容,反而要求一定期限内不准销毁。而且现在存储数据的成本很低,所以各公司都尽量将各自产生的数据储存下来。虽然世界主要技术公司的总部大多在美国,但并非所有的数据都储存在美国,世界各地都会有这些公司的服务器和存储系统。不过这些技术公司的高级管理人员可以很容易地查阅到世界各地的数据。从这个方面来讲,存放在哪里并不重要,只要网络能连接就可以了。如美国政府搜集的所谓“事关国家安全”的信息,政府更不会将其销毁,只会越积越多。相对于较低的储存成本,真正耗资的是筛选和运算成本。从山一样的数据中挑选砂一样的有用信息,实在很困难。
虽然目前WEB3.0系统已经能够做到低智能、大数据量的筛选工作,但依然达不到实战需要,代替不了人的作用。这如山一样的数据,是政府的一种负担,也是一个鸡肋。但不能说这些数据就没有用,比如警方确定了一个犯罪分子身份,就可以依法向网路服务商、手机服务商索取这个犯罪分子之前的所有信息,并通过这些积累的信息进行分析筛选。
互联网名称与数字地址分配机构(ICANN)成立之时完全由美国政府主导,招致许多非英语国家,特别是发展中国家人士的不满。互联网域名相当于网络空间的门牌号,本来是一个全球性系统。ICANN在2009年与美国商务部签署协议,此后不再对该部门负责,并使国际利益相关方在ICANN监管全球域名系统时拥有更多发言权。我们应该增加互联网领域的透明度,而不让某个国家或地区把互联网控制起来,各国、各地区应该更加平等地分享网络数据资源。
拥有数据的组织可以决定数据放在哪、如何存、存多久等。如果数据是企业的生命线,他自然会考虑安全、经济、高效等多种因素。为了信息安全,企业一般会采取异地备份等成本更高的手段。据称,“9·11”事件后,有些拥有更完善的数据备份体系的公司很快就恢复了业务,而另一些公司则由于数据损毁而走向破产。企业数据要存多久,也是一个需要权衡各种因素后的决策。这是企业自主的行为,除非建立在这些数据之上的业务还有其他法律上的要求。
我们可能关心的是另一个问题,即国家层面的信息安全。有人提出“信息疆域”的概念。也就是说,土地、海洋、空间都有国家的属性(领地、领海、领空),数字空间中是否也有“主权”的概念?大型跨国公司,通过种种业务渗透到日常生活的方方面面,因此可以采集到一个国家方方面面的数据。于是,国外机构对一个国家情况的了解甚至有可能超过该国自身,这显然会直接威胁到国家安全。
因此,国家对于跨国企业的数据传输、数据备份、数据使用等应有所限制,并进行监控,这十分必要。国家应该对此立法保障。有些数据有法律的保护,如测绘数据,其他更多种类的数据,目前还没有类似的法律。