1、Hadoop不是专为企业数据而生
像许多开拓性的IT技术(如TCP/IP或Unix)一样,,Hadoop的概念并非来自企业用户,企业安全更是无从谈起。使用Hadoop的最初目的是管理公开可用的信息,,如Web链接。其是针对大量的非结构化数据在分布式计算环境中设计的,并没有形成书面的安全、合规、加密、政策支持和风险管理等协议。
2、Hadoop的安全完全依赖Kerberos
Hadoop使用Kerberos进行身份验证。然而,该协议却可能很难实现,因为其并没有涵盖企业在安全方面的需求,比如基于角色的验证、LDAP和活动目录的政策支持等。Hadoop还不能支持节点与节点之间的传输数据的加密。
3、Hadoop集群包含很多节点
传统的数据安全技术的概念是建立在保护一个物理实体(如数据库或服务器)基础之上,这与Hadoop集群独特的大数据分布式计算环境有所不同。传统的安全技术在这种分布式的、大规模的环境中不能有效发挥作用。
4、在Hadoop环境中,传统的备份及灾难恢复数据并不相同
Hadoop集群的分布式特性也使得许多传统的备份及恢复方法和政策无效。如果用户使用Hadoop,则需要将数据复制、备份、存储在一个单独的、安全的环境中。
5、Hadoop很少能够单独运行
为了获得好处的大数据处理结果,Hadoop需要结合使用其他技术。虽然这些工具能够帮助处理大数据的访问和使用,但其大多数也缺乏真正的企业级安全。强化Hadoop本身,只是应对大数据安全挑战的一个部分而已。
6、大数据的工作负载遵从统一规则
大数据没有附带单独的管理规定和要求。不管它用于存储还是管理数据,企业组织必须要建立符合监管要求的数据保护和安全政策,如HIPAA、PCI等。但在此基础上,传统安全技术仍不能完全解决大数据环境下的挑战。
7、维护成本不确定
到目前为止,还没有人能够确定一个安全漏洞未企业带来多大的风险成本。没有全面的安全风险评估,企业将无法评估其安全弱点,也无法确定其在安全保障方面投入了多少资金。
8、大数据用户凭自己的力量维护安全
目前,企业用户关于维护Hadoop集群安全的做法包括对外部访问的控制,以及限制允许访问集群的人员数量等。
9、保护数据集群需要额外的步骤
Hadoop环境下的漏洞仍旧存在的话,那维护数据安全的额外步骤就必不可少。用户必须定期扫描他们的集群环境,以发现其脆弱点。这也是在复制和备份数据的同时将其存储在一个单独的安全环境中的最佳实践。
10、Hadoop用户必须时刻保持更新
大数据分析处理日渐成为企业的主流业务,,IT技术的应用贯穿公司从创业到运营的始终,其目的是使大数据分析为企业带来更多效益。IT管理者维护安全的最好做法包括定期访问网站的反馈意见,要将包含大数据的所有部分:安全、存储、服务器和数据中心系统等作为一个整体来看待。