探索中国CIO人才现状 | 第四季调研报告
大数据:使用对象数据库引擎探测全球变暖
2014-02-13  作者:TechTarget中国 

  您不能将北极塞进一个关系数据库。这是DavidGallaher在设计一个系统以帮助回答一个根本性的问题时发现的。这个根本性问题是:全球变暖将如何改变北极和南极?而DavidGallaher研究的是世界上的雪和冰。


  Gallaher开始于格陵兰(Greenland)的大约66万平方英里的冰盖。事实证明,在格陵兰探测30年的大数据——一个每天三次的卫星扫描任务,产生了几乎是PB级规模的数据量——更适合于一种在这个传统关系数据库鼎盛时期已经被忽略的技术。这项技术是解决对象数据的一种面向对象的数据库管理系统——在这种情况下,即来自Versant公司的对象数据库引擎。


  Gallaher说:“该数据对于Oracle或传统的关系数据库来说太大了,一旦处于该负载,数据库将直接崩溃。”Gallaher是位于博尔德的科罗拉多大学国家冰雪数据中心(NSIDC)的IT业务经理。关系数据库设计用于报告和分析非常适合填充到表的这种类型的一致性数据,但无法解开揭示格陵兰岛的冰的状态变化的历史网页。


  Gallaher是通过培训的地质学家,他是一个$600,000项目的主要研究者。该项目由来自国家科学基金会的赠款资助,目的是建立一个可以处理数十亿位时间系列信息(在均匀间隔做出的数据测量序列)的系统,并使它可以通过Web被世界各地的研究人员的访问。他说:“我们正试图转移到一个范例,在该范例中,移动分析到数据比移动数据到分析更容易。”


  该数据如此庞大,以至于NSIDC(以及NASA,NSIDC的收集合作伙伴)仅仅将元数据放入关系数据库中。数据本身存放在目录树中,并且在研究人员询问关键的是什么、何地和何时问题之前必须被提取——更不用说分析为什么。假定这些文件的规模,例如,某研究人员询问冰的反射率或反射属性——它是多白或多暗的,并且该特性正变化多少或多快——可能要花好几个星期去获得这个数据。(属性是面向对象社区使用的用于持久性数据的术语。)


  Gallaher说:“然后,他们不得不写一些东西以弄清楚他们有什么。如果他们很幸运,并且跑一个算法,在他们的赠款用光之前,他们可能会通过一次或两次算法运行。我们说,‘必须有另一种方式来做到这一点。’”


  不是旧时的面向对象数据库


  CarlOlofson说,面向对象的数据库技术,经常被误认为——甚至在数据库社区——是一种曾经尝试过但仅用于有限用例的技术。CarlOlofson是IDC信息管理和数据集成的研究副总裁。他说,这可能是因为对收集和报告侧重于关系数据库的数据库标准工作。


  为了充分利用对象数据库,必须创建反映持久性数据的结构的对象模型。Olofson说:“要做到这一点,涉及到抽象思维的水平。”IT部门可能会觉得“他们没有时间用于这样的分析水平。”


  但Olofson说,观念正在改变。公司现在想要跨时间和空间跟踪的数据类型和复杂结构——例如,包含在社会化媒体中的人对人对人的关系——使用对象数据库引擎可以更好地表达和检索。像Versant、宝石系统(最近被VMware公司收购)和Objectivity公司正获得来自企业和程序员们的更多注意。


  Olofson说:“基本观点是,对象数据库在带来秩序方面真正很有用,而不会失去大数据世界的细微差别”。


  新的NoSQL技术是相关的,并提供了很多好处,但他们缺乏企业计算所需的基础设施和工业标准。Olofson说,例如,Hadoop擅长数据的初始摄入,但在创建一些类型的结构化输出方面存在短处。


  时间旅行“数据棒”


  Gallaher说,开展对象数据库工作的关键是知道你要回答的问题。另一个挑战是说服习惯关系数据库的数据库管理员停止基于表的思维。Gallaher和他的小团队——两名研究生和一位教授(兼职)——提出了一个他们称为数据棒的构建,该数据棒包含数十亿的像素并查看一个固定区域的整个时间记录。


  Gallaher解释说:“你可以把它看作一个季度堆栈,每个季度代表几个小时,这个堆栈现在30英尺高。”加拉赫说。他说,拿反射作为一个例子:你可以要求系统“告诉你在什么地方其中一些“季节”较其他季节颜色更深,以及在那儿发生了什么。如果它发现一些有趣的事情,[你能够要求它]也告诉你和它毗邻对象。”


  Gallaher说:“这种美,是我们正在说的,让我们不要将这个看作为一个映像,而是将其看作为一个穿越时空的棒。我们认为这是一个巨型的3-D矩阵。”


  因为效率(和可恢复性)的缘故,格陵兰岛的所有数据棒以五年的间隔被切断,涵盖多个数据库。Gallaher说:“如果你愿意,你可以在所有数据库上运行查询,并让他们表现为‘一个数据棒’。”使用Versant查询语言VQL(他指出,对外部用户看起来像SQL),它成为一个相当简单的任务以过滤随时间发生的变化。


  Gallaher说:“对于我来说,将它解释给人们的最好的方式是将其看作为一个无限长的记录,沿着这条线的任何地方,你可以问你喜欢什么。”


  Gallaher广泛地查看了Hadoop和类似的技术,他说,他相信他可以使它工作。Versant系统处理任何他们想要的数据规模。他补充道:“我们正在询问巨大领域的问题,无数时间点,面对大量的变量,在几秒内获得响应,缓存。现在在几个小时内我们能够做的,在传统情况下,我们将需要花费6个月,这不是一个玩笑。”