美国军方认为,波士顿马拉松恐怖袭击的发生,透露出了军队和执法官员在防治恐怖袭击方面仍面临严峻的挑战。
美国军事情报分析员定期筛选庞大和多样的数据集,其中包括大数据量级的电子邮件、手机记录、报纸文章、电话交谈的视频剪辑和音频片段。
简化这个艰苦的过程的方式是通过软件来使用机器学习技术和语义分析算法。这些工具可以帮助那些被太多的数据所淹没的数据分析家,使得他们能够使用详细的图表和其他可视化功能,让海量信息更容易被研究。
ModusOperandi是一家位于佛罗里达州墨尔本的软件公司,它主要服务于美国军方和情报界,能够将语义功能与国防部门的系统工具结合起来。
该公司已经有近三十年左右的历史,但在10年前就开始注重语义技术了。简单地说,就是标签和描述数据并把它应用到现在被称为大数据分析的上面。语义标签赋予非结构化数据以意义,从而使计算机和人类相互之间更容易理解。
ModusOperandi的总裁RichardMcNeight和副总裁兼首席科学家博士EricLittle在接受《信息周刊》电话采访时,讨论了不同的军事数据库管理的复杂性以及语义技术能如何帮助情报分析人员迅速找到关键信息。
例如,ModusOperandi的Wave开发框架(Wave-EF)是一个产品套件,能够标识和标签概念以及非结构化数据之间的关系。它能够使得信息便于数据分析师用工具来校正和可视化它们。该公司的软件还允许数据分析师通过语义维基来探索数据。
McNeight说:“该分析师正在寻找非常具体的东西——一个地方、人、时间或事件。搜索、解析该文件并决定它是否符合(分析师)的搜索条件是非常困难的。”
数据图形能够以一个易于理解的方式呈现各种信息。
Little博士说:“当我们吸收了原始数据,并在其周围建立了模型,那么这些模型被称为本体。本体捕获实体和关系,并允许您在(数据)图形中构建其他东西。”
图形通常是通过地图、图表或其他的可视化工具来呈现大型数据集,这是一个很好的方式,因为可以降低其复杂性。Little博士说:“它允许普通用户能够快速看到过去他们没法看到的东西。”他还补充说,传统的分析手段,比如手动扫描多个电子表格或文档,都远不如它有效。
出于国家安全的原因,ModusOperandi的负责人无法透露情报人员如何使用他们的软件的具体细节。然而,McNeight透露道:“美国空军正在使用公司的应用软件来分析电子邮件。已经在7*24小时的基础上全面部署了。”
此外,ModusOperandi与美国陆军和海军陆战队联合演习,以评估和改进其大数据工具。美国海军正在用混合数据类型来测试该公司的软件,其中包括其他高科技厂商提供的全动态视频。
McNeight:“几乎有8到10个其他的公司正在与我们合作,我们正在努力将他们的数据流整合到我们的语义维基中。”
大数据给军事情报部门提出了一个有趣的挑战,特别是当今军事情报机传感器的快速增长,产生了大量的信息。
Little博士说:“我们越拥有更多的数据,就越难找到有用的东西。所以我们现在的问题主要集中在如何通过不同种类的异构数据来解决系统扩展性问题。”