QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

怎样用 Hadoop 保护大数据?

  • 2019-11-11
  • 本文字数:2538 字

    阅读完需:约 8 分钟

怎样用Hadoop保护大数据?

随着大数据分析技术的发展,人们在不断地寻找更好的方法去保护他们的大数据。请阅读本文,了解 Hadoop 是如何通过网络安全的方法来保护大数据的。


Hadoop 是什么?

Hadoop 是用 Java 开发的开源编程系统,让用户可以在计算机环境里存储和处理大数据集。它由 Apache 项目创建,由 Apache 软件基金会主导开发。


有了 Hadoop,用户就可以在由几千台服务器组成的大型分布式系统上创建、运行和测试应用程序,甚至可以一次性地处理 TB 级的大数据。即使某台物理服务器宕机,Hadoop 的分布式文件系统也可以让系统继续工作,不会受到故障影响。这样就避免了数据损失的风险,以及由于多台物理服务器宕机而导致的主系统故障。


而且,Hadoop 也是大数据处理系统,可以完成各种处理任务,比如做销售和业务计划、科学分析、处理物联网业务等。


谈到网络安全,Hadoop 也让用户可以更容易地保存大数据,并在发现新的大数据漏洞时可以向所有人告警。我们将在这篇文章里解释如何用 Hadoop 实现网络安全,以及从长期来说如何保存你的大数据,来保证公司的安全运营。

Hadoop 与网络安全

谈到网络安全,Hadoop 可以保存你们公司产生的所有数据,无论数据量有多大。它可以让你处理用户、物联网、各种终端产生的所有信息,有了这些信息,才能对异常事务、可疑行为和其它威胁等进行精准分析。


有了 Hadoop,你就可以使用各式各样的开源或闭源的应用和机器学习技术,对当前面临的和未来将要出现的挑战也有了解决方案。


但网络安全问题却没有这么简单。十年前,我们以为有了SIEM和其它类似产品就已经足够了。我们相信它们可以提供我们需要的信息,帮助我们应对网络安全的挑战。


但当移动、云和物联网应用被开发出来以后,我们才知道 SIEM 系统还不够健壮,没办法对各种不同规模的大数据进行恰当处理,也不能依数据规模的不同而伸缩自如。SIEM 不是针对大规模数据的系统设计的,因此对发现网络底层隐藏的问题无法提供有帮助作用的分析性结果。


当网络专家们不能用 SIEM 做高级分析或保护他们的大数据时,那么能为保护网络而做的事看起来就很有限了。他们只能发现有限类型的攻击,或者稍稍高级并已知的攻击,仅此而已。



但当你使用 Hadoop 时,可供参考的安全用例集就大多了,你可以在很大程度上得到帮助。公司可以用用户行为分析法来缓解并发现内部威胁,分享威胁信息,并且定位网络内部的可疑活动。


网络安全主要处理三方面内容:改进事故响应、更好的事故检测和了解这些场景对你的业务的影响。使用 Hadoop 时,这三个方面都能适用,因为从设计上它就可以让你很容易地进行分析、情境理解和获取信息。


安全社区不会受某一种应用的洞察局限,从而让自己处于危险的境地。Hadoop 的灵活性可以帮你的团队找到问题的答案,而不是受限于各种不同安全程序的已有知识,以及可以对他们发出通知的系统。


Hadoop 还整合了开源和闭源技术,提供完整的网络安全防御机制。比如,在开源安全技术的支持下,它的开放式网络洞察(Open Network insights, ONI)网络最先通过大数据分析和开放数据模型为平台提供了高级的威胁检测解决方案。

Hadoop 的网络安全功能

Hadoop 提供了以下几方面最常见的的网络安全特性:


  • 全面性:Hadoop 为所有的告警总结、相关大数据和高级搜索选项提供了单一的视图。这样避免了信息过载,有助于冲突分析和解决。

  • 高速录入:大数据一直在产生,需要非常快速地对这些数据进行收集、存储和标准化,这样才能为进一步的高级分析和计算所用。

  • 实时处理:Hadoop 提供了实时处理功能,可以满足对地理信息、威胁信息等重要大数据信息的流式处理需求,它基于 DNS 的元数据也对调查每个数据漏洞提供了必要信息。

  • 高效:企业需要用廉价的大数据存储来保存数据,并且可以长期地反复对数据进行分析和挖掘。有了 Hadoop,用户就可以理解产生威胁的原因是什么、哪些数据被泄漏了、以及数据被发往了哪里。

Hadoop 如何存储大数据?

Hadoop 用分布式的方式存储大数据。假设你有 5G 数据,那可以修改 Hadoop 的配置,产生 1G 大小的数据块。于是数据会被切分到 5 个块里,因此会放到多个 DataNode 上,而且还会在不同的节点上创建大数据块的副本。因为我们用的都是商业硬件,存储空间还不成问题。


Hadoop 还解决了扩展的问题。大多数系统用的是纵向扩展的方案,而 Hadoop 用的是横向扩展。必要时你可以向 Hadoop 集群添加新的数据节点。为了存储 1TB 的数据,你并不需要一台具有 1TB 空间的设备,你可以使用多台 128GB 的设备,让它们一起来存储 1TB 的数据,这样可以避免空间的过度浪费。

Hadoop 怎样进行数据分析?

用 Hadoop 进行数据分析就非常简单了。你可以用 Hadoop 存储多种类型的数据,不管是非结构型的、半结构型的或结构型的。向 Hadoop 导入数据时不会预先做模式校验。而且它遵循一次写入多次读取的模式。因此,你可以在写入数据之后,多次进行读取分析,以找到有价值信息。

怎样才能更快地分析和处理数据?

用 Hadoop 做大数据分析的人都知道,处理大数据实在太困难了。为了解决这个问题,我们把算法发往数据,而不是把数据带给算法。这意味着我们不会先把数据收集到主节点之后再进行处理,而是用 MapReduce 算法来让数据处理过程变得更快。处理逻辑会被发往多个从节点,然后就在这些从节点上对大数据进行处理。处理过程结束后,再把处理结果发往主节点,通过它返回给客户端。Hadoop 的 YARN 架构中有 NodeManager 和 ResourceManager。可以把 ResouceManager 配置到 NameNode 所在的服务器上运行。但 NodeManager 要与 Data Node 运行在相同的服务器上。

结论

用 Hadoop 做数据分析对用户来说是个非常好的选择,他们可以专注于数据分析,而无需担心其它风险。即使数据量非常大,仍然可以放心地进行存储、处理和分析,不用担心这些过程会对网络流量造成多大影响。


正因如此,很多大数据公司都喜欢用 Hadoop 来作数据存储。它不只能保存你的大数据,它先进的网络安全思想也可以让数据保存变得更容易。


当你的团队意识到了 Hadoop 的好处,并学会了怎样使用它之后,你就会发现系统运营变得更容易了,因为你对可能发生的威胁和底层问题都了解得更清楚了。因此,如果你非常想优化你的大数据管理,并且希望能掌控它,请了解一下 Hadoop 吧!


英文原文:


Protecting Big Data with Hadoop: A Cyber Security Protection Guide


2019-11-11 16:002227

评论 1 条评论

发布
用户头像
标题是我关心的,但是好像并没有什么有用的内容
2019-11-12 10:31
回复
没有更多了
发现更多内容

从零开始学机器学习——了解回归

不在线第一只蜗牛

机器学习

这个软件开发工具私活必备,后端程序员也能一键搞定各端APP、小程序

Onegun

finclip

域管理员账号被锁定解决办法

ServiceDesk_Plus

AD域 域管理

华为崔鸿:打造绿色、灵活、可靠的新型多样化智算中心

极客天地

《春江花月夜》Vivid菁彩视听版,开启一场美学视听盛宴!

最新动态

精通Java并发锁机制:24种锁技巧+业务锁匹配方案(第二部分)

肖哥弹架构

Java 高并发

人工智能 | 手工测试用例转Web自动化测试生成

测试人

软件测试 软件测试面试

巧用时间换空间:解读 ArcGraph 如何灵活应对有限内存下的图分析

Fabarta

图数据库 图计算 图分析 #人工智能

程序员如何构建自己的话语体系?——用当量

思码逸研发效能

编程 程序员 软件开发 代码 绩效考核

【程序大侠传】应用内存缓步攀升,告警如影随形

Disaster

博睿数据受邀亮相NebulaGraph Meetup北京站

博睿数据

从API到数据:京东商品详情一键获取的奥秘

技术冰糖葫芦

API Gateway API 接口 API 测试 pinduoduo API

2024具身智能大会 | 网易伏羲负责人范长杰博士:群体智能引领AI通向物理世界

网易伏羲

人工智能 aop 网易伏羲 具身智能 群体智能

DeFi强势回归:新一轮DeFi牛市即将到来?

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 NFT开发 公链开发

KaihongOS 4.1.2开发者预览版正式上线,诚邀开发者免费试用!

科技热闻

使用豆包MarsCode 实现高可用扫描工具

豆包MarsCode

人工智能 程序员 AI 开发 智能化

浅析数字孪生与数字卫星发展史

DevOps和数字孪生

卫星

MLPerf 放榜,中国 AI 存储公司焱融科技斩获多项世界第一

焱融科技

AI 高性能存储 MLPerf

Footprint Analytics 集成 Sui 区块链数据:助力 Move 生态系统的未来

Footprint Analytics

blockchain Sui

第三期安全AI挑战者计划-文本分类对抗攻击 第三名“我永远喜欢星野源”技术总结

阿里云天池

【免费大屏】JimuReport 积木仪表盘 v1.8.1 首个集成版本发布

JEECG低代码

百度搜索结果波动的极致治理

百度Geek说

C2C交易系统开发DApp组成架构详解

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

仅需6步,实现虚拟物体在现实世界的精准放置

HarmonyOS SDK

HarmonyOS

华为智慧屏 V5 Max 110发布!Audio & HDR Vivid畅享菁彩视听盛宴

最新动态

探索MySQL中VARCHAR(255)的演变及其对数据库设计的影响

Steven

CNCC | 从游戏AI到AOP :虚实融合助推新质生产力

网易伏羲

人工智能 aop 网易伏羲 游戏AI cncc

mac苹果电脑虚拟机推荐:VMware Fusion Pro for Mac 下载

你的猪会飞吗

VMware Fusion Pro VMware Fusion Pro 13 mac VMware Fusion Pro 12

获取淘宝商品详情数据api接口GET请求访问权限的条件

代码忍者

API 接口 pinduoduo API

怎样用Hadoop保护大数据?_安全_Priya James_InfoQ精选文章