随着大数据分析技术的发展，人们在不断地寻找更好的方法去保护他们的大数据。请阅读本文，了解Hadoop是如何通过网络安全的方法来保护大数据的。

Hadoop是什么？

Hadoop是用Java开发的开源编程系统，让用户可以在计算机环境里存储和处理大数据集。它由Apache项目创建，由Apache软件基金会主导开发。

有了Hadoop，用户就可以在由几千台服务器组成的大型分布式系统上创建、运行和测试应用程序，甚至可以一次性地处理TB级的大数据。即使某台物理服务器宕机，Hadoop的分布式文件系统也可以让系统继续工作，不会受到故障影响。这样就避免了数据损失的风险，以及由于多台物理服务器宕机而导致的主系统故障。

而且，Hadoop也是大数据处理系统，可以完成各种处理任务，比如做销售和业务计划、科学分析、处理物联网业务等。

谈到网络安全，Hadoop也让用户可以更容易地保存大数据，并在发现新的大数据漏洞时可以向所有人告警。我们将在这篇文章里解释如何用Hadoop实现网络安全，以及从长期来说如何保存你的大数据，来保证公司的安全运营。

Hadoop与网络安全

谈到网络安全，Hadoop可以保存你们公司产生的所有数据，无论数据量有多大。它可以让你处理用户、物联网、各种终端产生的所有信息，有了这些信息，才能对异常事务、可疑行为和其它威胁等进行精准分析。

有了Hadoop，你就可以使用各式各样的开源或闭源的应用和机器学习技术，对当前面临的和未来将要出现的挑战也有了解决方案。

但网络安全问题却没有这么简单。十年前，我们以为有了SIEM和其它类似产品就已经足够了。我们相信它们可以提供我们需要的信息，帮助我们应对网络安全的挑战。

但当移动、云和物联网应用被开发出来以后，我们才知道SIEM系统还不够健壮，没办法对各种不同规模的大数据进行恰当处理，也不能依数据规模的不同而伸缩自如。SIEM不是针对大规模数据的系统设计的，因此对发现网络底层隐藏的问题无法提供有帮助作用的分析性结果。

当网络专家们不能用SIEM做高级分析或保护他们的大数据时，那么能为保护网络而做的事看起来就很有限了。他们只能发现有限类型的攻击，或者稍稍高级并已知的攻击，仅此而已。

但当你使用Hadoop时，可供参考的安全用例集就大多了，你可以在很大程度上得到帮助。公司可以用用户行为分析法来缓解并发现内部威胁，分享威胁信息，并且定位网络内部的可疑活动。

网络安全主要处理三方面内容：改进事故响应、更好的事故检测和了解这些场景对你的业务的影响。使用Hadoop时，这三个方面都能适用，因为从设计上它就可以让你很容易地进行分析、情境理解和获取信息。

安全社区不会受某一种应用的洞察局限，从而让自己处于危险的境地。Hadoop的灵活性可以帮你的团队找到问题的答案，而不是受限于各种不同安全程序的已有知识，以及可以对他们发出通知的系统。

Hadoop还整合了开源和闭源技术，提供完整的网络安全防御机制。比如，在开源安全技术的支持下，它的开放式网络洞察（Open Network insights， ONI）网络最先通过大数据分析和开放数据模型为平台提供了高级的威胁检测解决方案。

Hadoop的网络安全功能

Hadoop提供了以下几方面最常见的的网络安全特性：

全面性：Hadoop为所有的告警总结、相关大数据和高级搜索选项提供了单一的视图。这样避免了信息过载，有助于冲突分析和解决。
高速录入：大数据一直在产生，需要非常快速地对这些数据进行收集、存储和标准化，这样才能为进一步的高级分析和计算所用。
实时处理：Hadoop提供了实时处理功能，可以满足对地理信息、威胁信息等重要大数据信息的流式处理需求，它基于DNS的元数据也对调查每个数据漏洞提供了必要信息。
高效：企业需要用廉价的大数据存储来保存数据，并且可以长期地反复对数据进行分析和挖掘。有了Hadoop，用户就可以理解产生威胁的原因是什么、哪些数据被泄漏了、以及数据被发往了哪里。

Hadoop如何存储大数据？

Hadoop用分布式的方式存储大数据。假设你有5G数据，那可以修改Hadoop的配置，产生1G大小的数据块。于是数据会被切分到5个块里，因此会放到多个DataNode上，而且还会在不同的节点上创建大数据块的副本。因为我们用的都是商业硬件，存储空间还不成问题。

Hadoop还解决了扩展的问题。大多数系统用的是纵向扩展的方案，而Hadoop用的是横向扩展。必要时你可以向Hadoop集群添加新的数据节点。为了存储1TB的数据，你并不需要一台具有1TB空间的设备，你可以使用多台128GB的设备，让它们一起来存储1TB的数据，这样可以避免空间的过度浪费。

Hadoop怎样进行数据分析？

用Hadoop进行数据分析就非常简单了。你可以用Hadoop存储多种类型的数据，不管是非结构型的、半结构型的或结构型的。向Hadoop导入数据时不会预先做模式校验。而且它遵循一次写入多次读取的模式。因此，你可以在写入数据之后，多次进行读取分析，以找到有价值信息。

怎样才能更快地分析和处理数据？

用Hadoop做大数据分析的人都知道，处理大数据实在太困难了。为了解决这个问题，我们把算法发往数据，而不是把数据带给算法。这意味着我们不会先把数据收集到主节点之后再进行处理，而是用MapReduce算法来让数据处理过程变得更快。处理逻辑会被发往多个从节点，然后就在这些从节点上对大数据进行处理。处理过程结束后，再把处理结果发往主节点，通过它返回给客户端。Hadoop的YARN架构中有NodeManager和ResourceManager。可以把ResouceManager配置到NameNode所在的服务器上运行。但NodeManager要与Data Node运行在相同的服务器上。

结论

用Hadoop做数据分析对用户来说是个非常好的选择，他们可以专注于数据分析，而无需担心其它风险。即使数据量非常大，仍然可以放心地进行存储、处理和分析，不用担心这些过程会对网络流量造成多大影响。

正因如此，很多大数据公司都喜欢用Hadoop来作数据存储。它不只能保存你的大数据，它先进的网络安全思想也可以让数据保存变得更容易。

当你的团队意识到了Hadoop的好处，并学会了怎样使用它之后，你就会发现系统运营变得更容易了，因为你对可能发生的威胁和底层问题都了解得更清楚了。因此，如果你非常想优化你的大数据管理，并且希望能掌控它，请了解一下Hadoop吧！

英文原文：

Protecting Big Data with Hadoop: A Cyber Security Protection Guide

创作场景

怎样用 Hadoop 保护大数据？