安全领域中的大数据分析

本文最初发表在 IEEE__ 安全及隐私 杂志上，由 InfoQ & IEEE__ 计算机学会为您呈现。

企业定期收集几 TB 与安全相关的数据 (比如网络事件、软件应用程序事件，以及人员活动事件)，用来作合规性和事后取证分析。据估计，不同规模的大型企业每天发生的事件在上百亿到上千亿之间。随着企业启用的事件记录源越来越多，雇用的员工越来越多，部署的设备越来越多，运行的软件越来越多，这些数值还会继续增长。不幸的是，这种数据量和多样性会迅速变成骆驼背上的稻草。现有分析技术无法应对大规模数据，通常都会产生很多误报，因此功效被削弱了。随着企业向云架构迁移，并且收集的数据越来越多，这个问题进一步恶化了。

大数据分析—信息的大规模分析和处理—在几个领域用的热火朝天，并且最近这些年，因其承诺以前所未有的规模高效地分析和关联与安全相关的数据，也引起了安全社区的兴趣。然而，对安全而言，传统数据分析和大数据分析之间的差异并不是那么直观。毕竟信息安全社区十多年来一直在利用网络流量、系统日志和其它信息源的分析甄别威胁，检测恶意活动，而这些传统方式跟大数据有何不同还不清楚。

为了解决这个问题，还有其它问题，云安全联盟 (CSA) 在 2012 年成立了大数据工作组。这个工作组由来自业内的和院校的志愿者组成，共同确定这一领域内的原则、纲领及所面临的挑战。它最新的报告， “安全智能中的大数据分析”，重点探讨了大数据在安全领域中的作用。在这份报告中，详细阐述了利用大量结构化和非结构化数据的新工具的介入及广泛使用如何改变了安全分析领域。它还罗列了一些跟传统分析的基本差异，并指出了一些可能的研究方向。我们对这份报告中的一些关键点做了汇总。

大数据分析的进展

数据驱动的信息安全数据可以支撑银行的欺诈检测和基于异常的入侵监测系统(IDSs)。尽管为了取证和入侵检测，对日志、网络流和系统事件进行分析已经是信息安全社区面对了十多年的问题了，然而出于几个原因，传统技术有时候对长期的、大规模的分析支持力度不够：首先是以前保留大量的数据在经济上不可行。因此在传统的基础设施中，大多数事件日志和其他记录的计算机活动在一个固定的保留期（比如60 天）后就被删除了。其次，在那种不完整，还很嘈杂的大型、非结构化数据集上执行分析和复杂查询的效率很低下。比如说，几个流行的信息安全和事件管理(SIEM) 工具都不支持对非结构化数据的分析和管理，被严格限定在预定义的数据方案上。然而，因为大数据应用程序可以有效地清理、准备、查询那些异构的、不完整的、嘈杂格式的数据，所以它们也开始成为信息安全管理软件的一部分。最后，大型数据仓库的管理传统上都很昂贵，并且它们的部署通常需要很强的业务案例。而Hadoop 框架和其它大数据工具现在将大规模的、可靠的集群部署商品化了，因此在数据处理和分析上出现了新的机会。

欺诈检测是大数据分析中最显眼的应用：信用卡和电话公司开展欺诈检测的历史已经有几十年了；然而从经济角度来看，必须用定制的基础设置来挖掘大数据做欺诈检测并不适于大规模采用。大数据技术的一个主要影响是它们让很多行业的企业能够承担构建基础设施来做安全监测的开支。

特别是新的大数据技术，比如Hadoop 生态圈 (包括 Pig、Hive、 Mahout 和RHadoop)、流挖掘、复杂事件处理和NoSQL 数据库—能够以前所未有的规模和速度分析大规模的异构数据集。这些技术通过促进安全信息的存储、维护和分析改变着安全分析。比如说，WINE 平台1 和Bot-Cloud2 允许使用MapReduce 高效地处理数据做安全分析。通过观察过去十年安全工具的反应发生了什么样的变化，我们可以找出其中的一些趋势。当IDS 探测器的市场增长时，网络监测探测器和日志工具被部署到了企业网络中；然而，管理这些分散的数据源发过来的警告变成了一个很有挑战性的任务。结果安全厂商开始开发SIEMs ，致力于把警告信息和其它网络统计数据整合并关联起来，通过一个仪表板把所有信息呈现给安全分析人员。现在，大数据工具将更加分散数据源，时间范围更长的数据关联、整合和归纳整理起来交给安全分析人员，改进了安全分析人员可获取的信息。

Zions Bancorporation 最近给出的一个案例研究可以让我们见到大数据工具的具体收益。它的研究发现，它所处理的数据质量和分析的事件数量比传统的 SIEM（在一个月的数据负载中搜索要花 20 分钟到一个小时的时间）多出很多。在它用 Hive 运行查询的新 Hadoop 系统中，相同的结果大概在一分钟左右就出来了。3 采用驱动这一实现的安全数据仓库，用户不仅可以从防火墙和安全设备中挖掘有意义的安全信息，还能从网站流、业务流程和其他日常事务中挖掘。将非结构化的数据和多种不同的数据集纳入一个分析框架中是大数据的特性之一。大数据工具还特别适合用作高级持续性威胁（APT）的检测和取证的基础工具。4,5 APT 的运行模式又低又慢（即执行时不引人注意，而时间又很长）；因此，它们可能会持续很长时间，而受害者却对入侵毫无所知。为了检测这些攻击，我们需要收集并关联大量分散的数据（包括来自内部数据源的数据和外部共享的智能数据），并执行长期的历史相关性风险，以便纳入网络历史上发生过的攻击的后验信息。

挑战

尽管在处理安全问题上，大数据分析应用程序的希望很显著，但我们必须提出几项挑战，从而去认识到它真正的潜力。在行业中分享数据，隐私特别重要，并且要避免违背数据重用的隐私原则法规，也就是说只能将数据用于收集它的目的。直到最近，隐私在很大程度上还取决于 www.computer.org/security 75 在抽取、分析和关联潜在敏感数据集能力上的技术局限性上。然而，大数据分析的发展为我们提供了抽取和关联这种数据的工具，让破坏隐私更容易了。因此，我们必须在了解隐私法规及推荐实践的情况下开发大数据应用程序。尽管在某些存在隐私法规的领域—比如说，在美国，美国联邦通信委员跟电信公司的合作，健康保险隐私及责任法案指出的医疗数据，几个州的公用事业委员会限制智能电网数据的使用，以及联邦贸易委员会正在制定 Web 活动的指导方针—所有这些活动都扩大了系统的覆盖范围，并且在很多情况下都会有不同的解读。即便有隐私法规在，我们也要懂得，那样大规模的数据收集和存储会吸引社会各界的关注，包括产业界（将我们的信息用在营销和广告上），政府（会强调这些数据对国家安全或法律执行很有必要）和罪犯（喜欢盗取我们的身份）。因此，作为大数据应用程序的架构师和设计者，我们要积极主动地创造出保障措施，防止对这些大数据库存的滥用。

另外一个挑战是数据出处的问题。因为大数据让我们可以扩充用于处理的数据源，所以很难判断出哪个数据源符合我们的分析算法所要求的可信赖度，以便能生产出准确的结果。因此，我们需要反思工具中所用数据的真实性和完整性。我们可以研究源自对抗性机器学习和稳健统计的思路，找出并减轻恶意插入数据的影响。

这个特别的 CSA 报告聚焦于大数据分析在安全方面的应用，但另一方面是用安全技术保护大数据。随着大数据工具不断被部署到企业系统中，我们不仅要利用传统的安全机制（比如在 Hadoop 内部集成传输层安全协议），还要引入新工具，比如 Apache 的 Accumulo，来处理大数据管理中独有的安全问题。

最后，这个报告中还有一个没有覆盖到，但还需要进一步开发的领域，即人机交互，特别是可视化分析如何帮助安全分析人员解读查询结果。可视化分析是通过交互式可视化界面促进推理分析能力的科学。跟为了高效计算和存储而开发的技术机制相比，大数据中的人机交互受到的关注比较少，但它也是大数据分析达成“承诺”必不可少的基础工具，因为它的目标是通过最有效的展示方式将信息传达给人类。大数据正在改变着用于网络监测、SIEM 和取证的安全技术景观。然而，在进攻和防守永远不会停歇的军备竞赛中，大数据不是万能的，安全研究人员必须不断探索新的方式来遏制老练的攻击者。大数据还会让维持控制个人信息的泄漏变成持续不断的挑战。因此，我们需要付出更多的努力，用保护隐私的价值观培育新一代的计算机科学家和工程师，并跟他们一起开发出设计大数据系统的工具，从而让大数据系统能遵循普遍认可的隐私准则。

参考资料

T. Dumitras and D. Shou, “Toward a Standard Benchmark for Computer Security Research: The Worldwide Intelligence Network Environment (WINE),” Proc. EuroSys BADGERS Workshop, ACM, 2011, pp. 89–96.
J. François et al., “BotCloud: Detecting Botnets Using MapReduce,” Proc. Workshop Information Forensics and Security, IEEE, 2011, pp. 1–6.
E. Chickowski, “A Case Study in Security Big Data Analysis,” Dark Reading, 9 Mar. 2012.
P. Giura and W. Wang, “Using Large Scale Distributed Computing to Unveil Advanced Persistent Threats,” Science J., vol. 1, no. 3, 2012, pp. 93–105.
T.-F. Yen et al., “Beehive: Large-Scale Log Analysis for Detecting Suspicious Activity in Enterprise Networks,” to be published in Proc. Ann. Computer Security Applications Conference (ACSAC 13), ACM, Dec. 2013.

关于作者

Alvaro A. Cárdenas德克萨斯大学达拉斯分校的助理教授。在这里联系他。

Pratyusa K. Manadhata HP 实验室研究员。在这里联系他。

Sreeranga P. Rajan 是美国富士通实验室的软件系统主任。可以通过 sree@us.fujitsu.com 联系他。这里还有可以免费访问的入选的 CS 文章和专栏。

这篇文章最初发表在 IEEE__ 安全与隐私 杂志上。 IEEE__ 安全与隐私的主要目标是促进和追踪在安全、隐私和可靠性方面的进展，并将这些进展以一种实用的形式展示给范围广泛的专业团体，从学院派的研究人员到产业内的从业人员。

原文英文链接： Big Data Analytics for Security

创作场景

安全领域中的大数据分析

大数据分析的进展

挑战

参考资料

关于作者